硬件科普 | Filecoin运维管理之安全监控篇

目前Filecoin封装以集群为主流形式,越大型的集群对于运维能力的要求也越严苛。如何保证设备的稳定运行且完成Filecoin封装过程中一系列的复杂证明,也是Filecoin运维工程师们面临的一大挑战。算力中心的监控作为运维环节中的重要一环,能够对集群的数据进行监测,实现包括硬件、业务、任务、服务的运行状况的实时监控。

运维工程师只有通过掌握集群运行的状态和数据监控才能完成进一步的优化,提升集群整体性能。接下来小冰将从监控角度来展示雅典娜云池的Filecoin的大型监控方案,主要从监控平台选型,安全监控告警,恶意程序查杀,系统入侵防护,高风险操作、运维审计、机房安保监控等几个方面进行展示。

?监控平台选型?

运维的核心是监控,合理的监控可以让运维人员更加轻松的应对运维过程中的各种异常和故障处理。

DeFi协议Nibiru Chain完成850万美元种子轮融资:4月5日消息,DeFi 协议 Nibiru Chain 宣布已经完成 850 万美元种子轮融资,估值为 1 亿美元,Tribe Capital、Republic Capital、NGC Ventures 和 Original Capital 共同领投。本轮资金将有助于建立技术堆栈、团队和社区。

Nibiru 拥有由自动化驱动的智能合约应用程序技术堆栈,希望在没有链下结算、资金全权托管或外部清算人的情况下,提供 CEX 的用户友好性。[2023/4/5 13:44:48]

面对超大规模的监控告警选型,合理的监控选型能带来事半功倍的效果,针对海量服务器的硬件监控,雅典娜云池选择的是二次开发的开源监控平台,我们的监控具有主机自发现、分布式的监控体系和集中式的web管理、支持无Agent和有Agent的混合监控方式、跨操作系统监控、高效可视化的业务视图等多种优势。

新火科技:子公司无法从FTX提取加密货币资产:11月14日消息,新火科技(原火币科技)在港交所公告称,子公司Hbit Limited约有等值美元1810万的加密货币存放在加密货币交易所FTX,由于FTX的集团实体(包括FTX)已于2022年11月11日在美国申请破产保护,因此可能无法从FTX提取上述加密货币资产。

本集团于11月13日与本公司控股股东兼非执行董事李林先生达成协议,据此,李先生同意向本集团提供最高金额为1400万美元的额外无抵押融资。本公司将于有需要时动用股东融资以支付该事件所产生的客户资产负债。(金十)[2022/11/14 13:00:57]

针对海量业务监控,雅典娜云池采用的是promethues+granfa作为监控手段,promethues具有部署简单、强大的查询语言PromQL、可扩展、易于集成等众多优势,是业务监控的强大助手。

九城旗下NFTSTAR将推出4款世界杯系列产品,包括链游和内马尔NFT等:9月13日消息,据官方消息,互联网企业第九城市(Nasdaq: NCTY)旗下NFTSTAR将于10月15日推出4款世界杯系列产品,包括国际足球巨星内马尔NFT、Web3体育社交平台PlayMaker、区块链足球游戏MetaGoal、以及足球竞猜游戏Wonder WIN。[2022/9/13 13:26:47]

不仅可从监测的数据中发现业务异常,还可以通过提前检查日志来规避更多风险。雅典娜云池的日志监控采用的是目前比较主流的ELKF日志监控方案,ELKF具有日志采集、存储、查询、过滤为一体的日志处理方案。

?安全监控告警?

监控的核心是告警,合理的告警可以增加监控处理的效率。目前雅典娜云池的硬件监控采用的是四级监控,分为警告、一般故障、严重故障、灾难。对于警告和一般故障,运维工程师只需要在页面进行告警弹窗展示,对于严重和灾难级别的报警,则需要采用钉钉的接口方式进行告警推送。

Stripe 与 OpenNode 合作,为企业提供即时法币到比特币的转换:金色财经报道,金融科技公司 Stripe 与比特币 (BTC) 支付基础设施平台 OpenNode 联手,让 Stripe 的商家客户能够通过 OpenNode 应用程序立即将全部或部分收款转换为比特币。OpenNode 战略负责人 Josh Held 在周二的一份声明中表示,该应用程序为企业提供了一种简单且安全的方式,可以将收款实时、自动或按需转换为比特币。\u2028OpenNode 表示,这款新应用将在几周内与 Stripe App Marketplace 一同亮相。\u20282 月,OpenNode 完成了由英国公司 Kingsway 领投的2000 万美元 A 轮融资,估值为 2.2 亿美元,以推动其全球扩张。(Coindesk)[2022/5/25 3:39:11]

业务监控针对WindowPost、WinningPost、算力封装等进行了业务24小时实时监控输出,并在业务告警后进行告警弹窗和声音提示,只有在异常处理确认后才能关闭告警。

Nervos基金会启动Web3开发者扶持计划,为开发者提供点对点支持:金色财经消息,Nervos基金会宣布启动Web3开发者扶持计划Nervos BuildClub,旨在为Web3开发者提供搭建dApp所需的资源和点对点的支持,包括获得来自Nervos基金会在市场推广方面的支持、技术支持以及获得Grant资助的机会等。[2022/4/29 2:40:02]

?恶意程序查杀?

雅典娜云池专业的测试人员定期查杀恶意程序,使用Chkrootkit、RootkitHunter等检查系统中的木马程序、Rootkit、间谍程序、流氓软件、蠕虫病及其它恶意程序。同时定期检查操作系统的关键机制,如系统服务、内存、注册表、启动进程。此外定期检测操作系统的安全模型,包括访问控制、特权和审计。反馈系统安全配置、文件访问,驱动、引导等系统深度信息。更为重要的是运维工程师会进行定期备份以及异地灾备,以便在系统发生灾难后及时恢复。

?系统入侵防护?

雅典娜云池使用专业的入侵防御系统,有效地对缓冲区溢出、SQL注入、暴力猜测、DOS攻击、扫描探测、蠕虫病、木马后门等各类黑客攻击和恶意流量进行实时检测及报警,并通过与防火墙联动、发送邮件等方式进行动态防御。

1、事前警告:入侵检测系统能够在入侵攻击对网络系统造成危害前,及时检测到入侵攻击的发生,并进行报警;

2、事中防御:入侵攻击发生时,入侵检测系统可以通过与防火墙联动、TCPKiller等方式进行报警及动态防御;

3、事后取证:被入侵攻击后,入侵检测系统可以提供详细的攻击信息,便于取证分析。

?高风险预警?

1、雅典娜云池专业的运维人员及时关注官方发布的安全资讯,如果有安全通报,及时进行修复。

2、定期使用扫描器(openvas)对系统扫描,及时更正网络安全漏洞和系统中的错误设置,有效提高网络的安全性。

?运维审计?

为对运维人员的访问过程进行细粒度的授权、全过程的操作记录及控制、全方位的操作审计、并支持事后操作过程回放功能,实现运维过程的“事前预防、事中控制、事后审计”。目前我们采用二次开发的开源堡垒机作为统一登录访问控制堡垒。

?机房安保监控?

影响机房安全的因素有很多,如空气中的灰度、温度以及湿度状况、线路短路及设备故障引起的烟雾火灾、布线是否规范、内部人员管理制度是否合理、外部人员管理措施等。

*?针对空气中的不安全因素,雅典娜云池在各个机房安装有温湿度告警器、烟雾告警器,做到安全事故一旦发生能够第一时间发现并处理。

*空气中的灰尘对服务器的使用寿命有很大影响,为了把灰尘对服务器的影响减少到最低,雅典娜云池每天安排有专业的清扫人员在机房清扫灰尘。

*?机房规范的布线不仅可以为运维人员排查故障节约时间,而且可以避免运维人员在排查线路时因拔错线而导致的人为故障。雅典娜云池机房采用标准的布线规范,做到了线路清晰、美观、不影响设备硬件的更换。

*?机房的监控系统是机房安全的重中之重,雅典娜云池在机房的各个角度都安装有摄像头,可以全方位无死角辐射到机房的每个区域。

*?在各个机房中雅典娜云池安排了至少3位现场值班人员同时配有备件库,每天安排至少3次巡检,做到能够及时发现故障并及时处理。

*?在机房有外来人员拜访时,雅典娜云池都会安排值班人员陪同,避免因外来人员的误操作导致安全事故发生。

?总结?

雅典娜云池的监控系统做到了规范统一、安全可靠。具有实时监控运行状态、预期故障发生、迅速排除故障、记录和处理相关数据、进行综合管理等多重能力,对设备故障、环境情况及安全性作出迅速、准确地反应和有目的性的维护,进而提高设备运行的可靠性,提高运维管理质量,降低系统维护费用,同时确保系统运行处于良好的工作状态。

雅典娜云池的机房节点分布多,数据信息交互量大,针对用户的不同的管理机制,通过分散监控、集中统计的手段,实现对设备的统一监控管理,实现了机房管理的多样化、智能化、自动化、图形化,充分保证了机房管理的独立性,将机房管理化繁为简、化整为零且又通过雅典娜云池内部网络最终汇聚为一。

来源:金色财经

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:0ms0-1:603ms