Lighthouse:从测试网崩溃中学到的教训

作者:BlairFraser

翻译:阿剑

来源:以太坊爱好者

一个测试网倒下,千千万万个测试网站起来

一个星期以前,我们宣布使用Lighthouse客户端启动一个大型的公开测试网。测试网成功启动并且运行了一周,首次证明了使用生产环境配置的Eth2测试网也是可以跑起来的。

启动测试网时,我们曾说,“我们要尝试把这个测试网搞崩,而且我有自信我们能够成功”。测试网确实挂了,而且是两次。第一次是在周六上午,第二次是在周一早上。第一次挂掉之后,我们成功恢复了测试网运行;但第二次崩溃时,我们决定就此收手,不再恢复。

美国啤酒品牌Bud Light与Nouns DAO达成合作,将在超级碗广告中进行NFT展示:2月7日消息,美国最大啤酒酿造公司Anheuser-Busch旗下Bud Light啤酒已与去中心化组织Nouns DAO达成合作。该啤酒品牌的数字高级总监Corey Brown表示,作为合作的一部分,Nouns DAO向Bud Light NEXT赠送了一个Nouns NFT,届时“Noun glasses”将出现在其周日播出的超级碗广告中。

据悉,Bud Light NEXT是其推出的新无碳水化合物啤酒。上月,该品牌推出了其第一个NFT项目Bud Light N3XT。(The Block )[2022/2/7 9:36:09]

这里说的“崩溃”、“挂掉”,都是指测试网无法敲定epoch。而没法敲定epoch的原因是超过1/3的验证者都掉线了。在设计上,这个测试网遇到问题不会死撑,而是会快速且明确地表现出失败。

Koala Intelligence Agency 3天销售额超2500万美元:OpenSea数据显示,截止目前,8月25日上线的Koala Intelligence Agency 销售额达到7770ETH(约合2517.4万美元)。[2021/8/28 22:43:08]

这个测试网的基石是4个AWSt2.medium实例;每个实例都作为公开的引导节点,负载4096个验证者。实际上,我们也很惊讶,它们居然能撑这么久;对于少数硬件配置一般的机器来说,这是巨大的负担;它们中只要有两个离线了,测试网就没法继续敲定了。

我们分析了这两次崩溃事件,也学到了很多。我们团队已经回到开发工作中,希望能在下周发布一个新的测试网。你可以在v0.1.1milestone这个页面上了解我们的进展。

Gate.io发布iOS TestFlight2.5.0 版本,新增期权交易等功能:据官网公告,Gate.io今日发布iOS TestFlight2.5.0版本,升级内容包括:合约页面新增期权交易入口;现货及合约订单功能全面优化;新增视频/投票/评论点赞等动态功能;法币交易及借贷界面显示优化;新增期权及交割合约钱包账户;钱包新增今日收益功能等。详情点击原文链接。[2020/8/19]

教训

测试网崩溃的主要原因

测试网第一次崩溃的直接原因是软件的联网部件中的一个循环,它会“看到”某个见证数据不断地重复发布。该循环在我们部署的四个信标节点中的两个节点上出现了,耗尽了它们的资源,使得它们无法生产区块和见证数据。这个问题是导致两次崩溃的直接原因。

金色相对论 | HIGH LIGHT第一期:百度XUPER CHAIN开源:金色相对论之High-Light重磅出击~金色财经技术男神潘瑞携手佟掌柜,专研最前沿的区块链技术与应用,为金色财经读者带来最精彩的技术AMA社群讨论~第一期迎来流量霸主百度,一起聊聊开源的那些事儿!点击原文查看直播吧[2019/5/31]

我们已经更新了我们的gossipsub实现,现在,每条内容都是根据其内容来寻址的,这就意味着,如果我们收到两条内容相同的消息,gossipsub协议会忽略掉第二条消息。我们也在Lighthouse客户端的代码中加入了复制消息检查,以此防止收发复制消息。

测试网崩溃的次要原因

数据量暴涨

两个信标节点挂掉以后,测试网就不可能敲定区块了。不过,剩下的两个节点仍在继续发出和接收区块,这也是我们希望看到的情形。但是,网络失去确定性之后,它们就无法修剪和压缩它们的数据库,这就导致它们的数据库以每小时几GB的速度增长。因为我们将测试网节点的硬盘限制在32GB,最终,它们的磁盘被旧数据塞满、无法再接受新区块了。这就导致另外两个节点也离线了。

在这种情况下,要想恢复测试网运行也很简单,只需加大硬盘、重启节点即可。我们也对这种恢复方式很满意,因为这就意味着,一些配有大硬盘的节点在两次崩溃中都几乎不会受到什么影响。

在我写作本文之时,Michael正在开发针对这个问题的解决方案,思路是让数据库的膨胀速度降低32倍。虽然我们很高兴看到在100epoch不能敲定之后节点能够恢复,但目前的情况相当于,一个硬盘不足64gb的节点只有约10个小时的生存时间。恢复能力对Lighthouse客户端是非常重要的,而Michael的更新会将10小时延长到13天。

分叉选择

我们也观察到,网络的分叉选择时间延长到了8秒。在我们看来,这是不可接受的,必须要去解决它。我们意识到,这个问题是由于过度从磁盘中加载信标链状态导致的,所以我们已经写了一个PR来解决这个问题。

社区反馈

很高兴看到人们参与到Lighthouse测试网中来并运行自己的验证者,有400多名参与者参与了我们的测试网!感谢他们的反馈!下面这些建议是他们一再提到的:

需要更快的同步时间:我们正在努力了,预计在0.1.1版本中,同步速度可以快上1.5~2倍。

更好的docker文档:Scott正在优化这些文档,而且新的测试网会用docker来部署。

更稳定的eth1节点:我们提供了一个公开的eth1节点,方便用户的使用,但事实证明,这个节点还导致了某些验证者宕机。在下一个测试网发布的时候,我们会在不同的地区部署少量节点,并在这些节点间做负载均衡。

更多API端点:becaoncha.in团队联系上了我们,并希望他们的区块浏览器能够得到更多的API端点。我们已经提交了一个PR,估计会在0.1.1版本时合并。

?

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:15ms0-2:72ms