主网上线在即,AI 数据的分布式存储协议 EpiK 如何变垃圾数据为有效数据?

撰文:ZeoZhang

来源:链闻ChainNews

腾讯创始人马化腾曾在2017年「迈进智能新时代」中国IT领袖峰会上坦言:

目前很多大数据是垃圾数据,因为没有标签,用再好的算法也算不出来,数据清洗、标签化难度非常高,我们甚至要耗费很多人工先清洗数据,再让AI学习。

一席话道出人工智能发展难点。在互联网计算机迭代数十年后,算法和算力的积累已将人工智能推向一个新的阶段,但缺乏高质量的有效数据,成为掣肘人工智能发展的重要原因之一。在解决这一问题上,测试网已经平稳运行一年的AI数据的分布式存储协议EpiKProtocol提出了结合区块链的解决方案。

2021年8月15日,测试网已经平稳运行一年的AI数据的分布式存储协议EpiKProtocol将正式上线主网。作为一个首次集数据标注、分布式存储以及数据应用等功能于一身的项目,EpiKProtocol尝试解决市场缺乏有效数据问题,构建共建共享共益的AI数据的分布式存储协议?

为什么缺乏有效数据?

一方面,平台默许甚至鼓励虚假的刷数据行为,造成无用数据横行。

对于传统互联网行业来说,刷数据现象司空见惯:新开的网店九成以上会选择刷单吸引客流量;即使是订阅量超百万的微信大号也经常通过刷阅读量满足广告客户的数据需求;更甚者,某旅游平台曾被爆出通过机器+人工的形式,冒充用户发表了数千万的用户评价,以假乱真,影响用户对产品的真实测评。

数据:Sui主网上线至今PoS质押已经产出5888万枚SUI:6月5日消息,据链上分析师余烬监测,Sui网络目前每个纪元(约24小时)产出111万枚SUI,而Sui主网上线至今已经53纪元,也就是已经产出5888万枚SUI;目前Sui网络PoS质押了73亿枚SUI,也就是Sui网络一年约4.05亿枚SUI的产出,都被未解锁的项目方、投资人、基金会挖了;一年的PoS产出(4.05亿枚)已接近于OKX/Kucoin公售(4.5亿枚)的数量。[2023/6/5 21:16:21]

对于一向标榜公开、透明、链上可追溯的区块链行业来说,刷数据现象仍不鲜见,分布式存储领域明星项目?Filecoin?也曾陷入「无效数据」质疑:在Filecoin网络刚上线时,较高的挖矿收益吸引大量矿工参与,甚至有部分矿工利用外部程序进行灌装虚拟数据或自己封装一些毫无价值的垃圾数据。

Filecoin存储算力快速暴增,从而导致存储的数据量短时间爆增。再加上Filecoin网络一开始无法对存储的数据进行分辨,真实有效数据极少,大量物理存储被浪费,对整个Filecoin生态发展带来不良影响。

另一方面,数据处理成本居高不下,多数人工智能不堪重负。

众所周知,人工智能需要不断深度学习,这需要庞大的数据量支撑。

互操作性协议Connext宣布已在主网上线其通用的跨链交易协议NXTP:官方消息,以太坊Layer2互操作性协议Connext宣布,已在主网上线其通用的跨链交易协议NXTP,并支持Arbitrum、Polygon、xDai、Fantom、Binance Smart Chain。

据悉, Nxtp是用于在以太坊域(链 + L2s)之间传输资产和调用合约的基础协议。[2021/9/28 17:13:11]

庞大的用户群体每天活跃在互联网中,产生庞杂的数据。然而这些数据并不能被直接使用。人工智能的深度学习需要数据集的获得、数据的标注等,其中数据的标注会造成巨大的人力成本。

广泛应用深度学习网络需要大量已标注的数据进行训练才有可能达到预期的效果,但大数据时代下,虽然有海量的数据取之不尽,绝大部分却是未进行标注的数据,这些训练数据的标注需要人为进行。

对于数据品质要求越高,数据的标注需求就越精细,对标注人员的素质和专业知识的要求也就越高,相对应成本也越高。

长久以来,这些数据都由专门的数据标签分类公司进行加工处理,以供人工智能等数据需求领域发展使用。然而,用户-数据处理公司-数据需求者的三方协作,使得有价值的数据获取成本极高。

标注、存储、销售:EpiKProtocol的一站式数据服务

期权协议Charm在主网上线为UniswapV3设计的被动做市策略AlphaVaults:链上期权协议CharmFinance宣布正式在主网上线为UniswapV3设计的被动做市策略AlphaVaults。AlphaVaults可用来自动管理UniswapV3的流动性,使其集中流动性获得更高的收益,并定期进行再平衡以减少无常损失。[2021/5/8 21:36:31]

EpiKProtocol生态引入领域专家、赏金猎人、数据企业三类角色,致力于构建去中心化的大规模共建共享共益的AI数据存储协议,通过去中心化存储技术IPFS、去中心化自治组织DAO及通证经济模型,组织并激励全球社区成员将人类各领域知识梳理成可用的AI数据,并持续更新这一人类永恒知识库。

在数据标注方面,EpiKProtocol连接C端用户推出AI数据标注系统。

「领域专家」设计不同领域的AI数据格式,并发布数据标注任务;人人都能注册成为「赏金猎人」,参与数据标注成为AI老师,获得EPK代币奖励。

完成数据标注后,「赏金猎人」返还处理过的数据,「领域专家」验收所负责领域AI数据获得EPK代币奖励。此外,「领域专家」还会根据数据结果优化AI数据格式,良性循环下,数据质量得到不断提升。

在数据存储方面,EpiKProtocol推出AI数据存储系统。

金融隐私公链Findora测试网Forge已支持完整功能,全力筹备主网上线:去中心化金融隐私公链Findora于2020年8月发布测试网络Forge。据了解,Forge提供包括发行资产、设立账户、资产转账、交易验证等完整的功能,测试网络的交易全部采用先进的零知识证明密码学体系,在完整保护隐私的同时也提供丰富的细粒度审计功能,在有需要的情况下以便利披露、知情权和合规。同时,多个阶段对于交易的验证速度也是业内领先。目前,Findora团队正在积极准备公链主网上线。[2020/11/18 21:09:12]

完成标注并通过验收的数据将由「领域专家」上传至AI数据存储系统进行分布式存储,参与数据存储的设备也都可以获得EPK代币奖励。

在数据销售方面,数据企业可通过质押EPK来访问数据,并从AI数据存储系统中付费下载有效数据。

由于EpiKProtocol的AI数据标注系统直接面向C端用户,消除了中间户数据标注公司的存在,简化了数据处理流转的各个环节,因此成本更低。以一条可用的AI语音方言数据为例:传统市场一条可用数据成本约在12元左右,而在EpiKProtocol系统成本约为2元,是传统市场的1/6。

更重要的是,由于EpiKProtocol系统中有来自各行各业的「领域专家」把关数据治理,因此EpiKProtocol系统产生的有效数据更能够精准符合不同AI领域的数据需求。

分片项目Elrond将在7月4日公布主网上线时间:分片项目Elrond表示将在7月4日公布主网上线时间,同时开启创世纪质押2.0(Genesis Staking 2.0)阶段。Elrond供应将参考比特币的供应模式,将在10年内达到固定的最大供应量。Elrond每个节点的固定权益是250万 ERD,代币的权益上线增加到16.725亿ERD,其中委托人额外增加11.225亿ERD,5.5亿增加给验证人。[2020/7/3]

协同B端、C端和行业专家的开放经济模式

不同于目前分布式存储主要围绕B端归档数据存储服务的商业模式,EpiKProtocol是一个协同B端企业、C端用户和领域专家的去中心化协同AI数据存储协议,在成本控制、收益提升和服务体验方面,都具有媲美中心化互联网巨头的能力。

C端用户:更低的数据标注门槛

EpiKProtocol针对C端用户打造了AI数据采集应用「知识大陆」,降低了数据标注门槛,同时提升了趣味性。卡通的界面和简明的布局让数据标注这种枯燥而繁杂的工作变为有趣的游戏,通过游戏化形式组织其全球社区成员共建大规模开放AI数据库。

各行各业都可以在「知识大陆」中创建AI数据类型,包括金融、医药、法律、社交、电商等,未来随着知识大陆的发展和运用,有数据需求的公司都可以选择在此进行共同协作收集整理并处理数据。

其次,EpiKProtocol的标注效率更高。AI数据标注系统运营三周以来,EpiKProtocol标注了17272条有效数据,且数据指标完整,每条数据被人工验证次数高达10次。相比较于传统标注方式,EpiKProtocol的标注效率高了近乎10倍。

最重要的是,参与EpiKProtocol数据标注的用户能够获得更高收益。传统数据标注模式中,数据处理者仅作为一种人工劳动力,并不享有数据分红权。而在EpiKProtocol中,对数据做出贡献所获得的EPK实际是获得了数据的股权,分享数据在后续使用过程中的盈利分红。后期数据需求越大,EPK需求就越高,EPK便会升值,EPK持有者便可以获益。

B端用户:激励有效数据

EpiKProtocolAI数据存储系统采取经典的1+3配置,即1Deamon+3Miners配置。与Filecoin相比,EpiKProtocolAI数据存储系统参与出块最小算力为0、存储免费,无需指定节点且默认无限份数、无限时间,更能够充分调度起每台闲置存储设备。

最重要的是,Filecoin存储无用数据也可获得算力,但EpiKProtocol存储系统中只有通过「领域专家」验证过的数据才可获得算力,这不仅保障了数据的高质量,而且进一步遏制了无效数据浪费存储空间的不良影响。

项目团队

EpiKProtocol拥有行业顶级顾问以及实力派投资机构。著名AI科学家、SigularityNET创始人、全球首个机器人公民Sophia之父的首席科学家BenGoertzel出任EPIK?铭识协议顾问,协助EPIK推动欧美数据市场,助力构建高质量的AI数据生态。

融资方面,EpiKProtocol获得了包括FBGCapital、JACKDAW、1475、ChainUpCapital、7O'clockCapital等机构的青睐,助力AI数据的分布式存储以新的势头进入大众视野。

主网即将上线

根据团队最新消息,EpiK「主网1.0罗塞塔」将于2021年8月15日中午12点正式上线。该时间也是EpiK测试网上线1周年的时刻。目前测试网5.0在测节点已超过6万个,稳定出块。

随着主网的日益临近,挖头矿也成为EpiKProtocol用户的关注焦点之一。作为EpiKProtocol生态激励代币,EPK总发行量为10亿,其具体分配规则如下:

1.创世团队:5%,每90天释放1/16;

2.基金会:5%,每90天释放1/4;

3.投资人:20%,每90天释放1/7;

4.社区:70%,出块速递每90天衰减一次,4年减半,分50年释放完毕。

EpiKProtocol拥有AI数据标注和AI数据存储两大系统,也对应了两种主要参与方式:

第一类,参与标注AI数据,成为EPK赏金猎人。利用闲暇时间参与标注不同AI领域数据,完成任务越多,EPK收益越高。认真答题还有机会赢取知识徽章NFT,后续可凭借NFT参与EPK空投活动。

第二类,参与存储AI数据,成为EPK存储节点。利用闲置的存储设备即可参与存储AI有效数据,每个存储节点需要完成1000EPK的基础质押才能拥有出块权。存储节点是随机获得出块机会的,但是其随机被选中的概率和其成功存储的数据大小挂钩:存的数据越多,被选中概率越高,同一个文件的Top100存储者享有双倍算力。

只有通过领域专家验证过的数据才被计为有效存储,存储节点才能获得算力,因此,为了获取更多的有效存储,就需要完成额外的流量抵押。1EPK可以用于访问10Mib数据,也可用于封装10Mib数据。目前,基础抵押提现的解锁期为0天,流量抵押提现的解锁期为3天。

结语

EpiKProtocol还开启了在分布式治理领域的探索,于7月20日发布了EpiKDAO。作为分布式存储赛道首个DAO治理模型,社区用户可以借助EpiKDAO参与EpiK生态资源的动态调节,有效保障EpiK社区的可持续发展,修复未来可能发生的资源错配问题。

随着Web3.0时代的日益来临,数据的重要性日益凸显。EpiKProtocol从数据标注到数据分布式存储再到对接企业实现数据应用,打造了一个低门槛、高效率的数据收益共享闭环,未来EpiKProtocol如何实现丰富的落地应用场景值得期待。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:46ms0-1:430ms