原文标题:《美国大选华裔候选人杨安泽说了,数据比石油更有价值,但如何实现它?》撰文:李画致谢:PlatON创始人孙立林、安全多方计算研究者晟超
连2020年美国总统大选华裔民主党候选人杨安泽都说了,「数据比石油更有价值」,可见这一理念多么深入人心。
不过,尽管「数据是数字时代的石油」、「应该把数据所有权握在自己手上」这些说法听上去很有吸引力,但其实很难说清楚我们该如何去实现它。
《经纪学人》早在2017年就发表封面文章,称「数据将取代石油」成为当今时代最有价值的资源。但直到今天,拥有「数据石油」主权的普通人依然无法从这宝贵的资源中获得收益。
相反,这些数据还给它们的拥有者带来了严重的隐私泄露的问题。
为何美好愿景与现实情况间有着巨大差距?怎样才能实现数据所有权和数据价值?本文试着从已有的实践去探讨,希望能理清一些线索,对建立起关于该问题的思考框架贡献一点力量。
Stargate提议重新发行所有STG代币,以消除Alamada所持STG的非法转移风险:2月2日消息,基于Layer Zero的跨链流动性协议Stargate提议重新发行所有STG代币,以消除从Alamada地址非法转移STG的风险。
此前Alameda于2022年3月从Stargate的社区销售中购买了占STG总供应量10%的代币,并承诺将锁定这些代币至2025年3月,但最近Alameda钱包的链上转移表明,Alameda并没有完全控制其钱包,有人正在非法转移资金。[2023/2/2 11:42:11]
我们不能出售数据
相信我们每个人都有过接到推销电话的经历。绝大多数人的个人数据都被买卖过,最简单的比如电话号码和一些消费信息,这些数据此刻也许正在某个地方等着被再次出售。
Voyager无担保债权人官方委员会的推特账户被暂停后重新上线:9月21日消息,加密货币借贷平台Voyager无担保债权人官方委员会的推特账户(/img/20230515202420282592/2.jpg "/>
StarkWare:StarkNet将在“Regensis”上重新启动,Cairo 1.0年底推出:金色财经报道,以太坊Layer 2开发公司StarkWare总裁Eli Ben-Sasson透露,他们正在开发的以太坊Layer 2扩展解决方案StarkEx和StarkNet即将迎来两个重要里程碑:首先是发布StarkNet原生智能合约语言升级版Cairo 1.0,该语言现在已经完成开发,预计在2022年底前推出;之后,该团队还将在名为“Regensis”的以太坊主网上重新启动StarkNet,旨在提高网络DoS攻击保护能力并降低gas费用。
此外,Eli Ben-Sasson表示原定于9月的原生Token发行计划已被推迟,因为他们希望在Solidity合约方面做得更好一点,因此StarkWare原生Token将在10月内上链。不过,Eli Ben-Sasson指出他们在初始阶段不会为用户提供免费Token,所有Token会在发布后立即锁定。Eli Ben-Sasson还透露,StarkWare很快会宣布成立基金会并由其负责Token分配和分发。(decrypt)[2022/10/17 17:28:25]
好消息是,我们似乎正在拿回这一类数据的所有权。欧盟出台的《通用数据保护条例》规定,产生数据的个人是数据主体,他有权要求清除其个人数据,也有权反对并要求停止对其个人数据的处理。
Mozilla基金会计划重新接受加密货币捐赠,但拒绝比特币:4月8日消息,Firefox网络浏览器背后的非营利组织Mozilla基金会执行董事Mark Surman发表博客文章称,Mozilla基金会决定在不久的将来恢复接受加密货币捐赠,但禁止耗能大的“工作量证明”加密货币,这意味着它不会接受比特币捐款。 Surman解释称,工作量证明加密货币可以大幅增加基金会的温室气体排放量,使其无法满足基金会的气候承诺。Mozilla将在2022年第二季度末提出一份加密货币清单,这些加密货币将被该基金会接受。
据悉,Mozilla在2014年就开始接受加密货币捐款。该公司在其推文引发强烈反对后,于今年1月初叫停了加密货币。[2022/4/8 14:12:00]
坏消息是,我们没有拿回数据的使用权,如前文所说,数据价值是建立在数据使用权交易的基础之上的,所以我们离用这类数据实现归属于用户的数据价值还很遥远。它的困难在于:
一方面,即使被称为史上最严苛的数据保护条例,GDPR也只是要求企业在使用数据前告知用户哪些数据被使用了,以及用这些数据做什么,也就是说,它只约束企业不滥用数据,但并不限制企业使用数据。
孙宇晨:JustWrapper的出现让隐私权重新归属于用户自身:据最新消息显示,波场TRON创始人兼BitTorrent CEO孙宇晨正在一直播进行直播,孙宇晨在直播中表示:“JustWrapper在技术上选用与Zcash同等量级的零知识证明技术,并且是行业中第一个将零知识证明技术应用于智能合约的,取得了零的突破。在一个日益透明的世界,JustWrapper的出现就是要解决用户隐私权的问题,满足用户多样化的隐私保护需求,让隐私权重新归属于用户自身。”[2020/9/28]
另一方面,因为这类数据可被用于帮助产品了解用户,如果企业以提高用户体验为理由使用数据——它们现在就是这么做的——我们似乎难以拒绝。让用户牺牲用户体验去要求企业无权使用任何行为数据似乎很难,而希望企业主动把这类数据的两种用途区分开、让渡部分广告价值似乎更难。
这是否意味着企业依然可以按照以前的数据处理方式行事?并不是。我们会发现上述数据所有权和使用权的分离仅仅是字面意义上的,企业虽说只拥有数据的使用权,但它们是「拿到」并使用原始数据本身的,这让数据依然存在被滥用以及安全方面的问题。
Coinnest重新开启PundiX存取资金服务:韩国知名虚拟货币交易所Coinnest在官网中称重新开始提供虚拟货币PundiX(NPXS)的存取资金服务,时间为6月19日下午7点(北京时间)。[2018/6/19]
而因为大众隐私意识的觉醒以及各国数据保护法的出台,一旦出现问题,企业将可能面临用户的抵制以及巨额的罚款,因此我们可以看到Google、苹果等公司如今都在隐私计算领域进行着大量的研究。
以Google为例,它的「联邦学习FederatedLearning」是将机器学习模型集成到每一台设备上,在汇总用户参数发送给云端时,通过隐私保护地聚合算法和系统工程实现隐私计算。
但需要再次指出的是,企业通过隐私计算实现数据所有权和使用权的分离,不是为了用户能够进行数据使用权的交易,它们更多的是希望降低数据使用风险、免受隐私泄漏指责,能够满足合规要求的继续免费使用用户的数据。
因此,用户得到这类数据的数据价值是一件道路漫长的事情,其中最大的难点在于意识,只有当我们有强烈的数据所有权和使用权意识时,才可能推动政府出台更严格的数据保护条例,或者推动新的互联网架构颠覆如今中心化服务器的模式。
「生产力价值数据」最具价值
了解了「身份数据」和「行为数据」之后,接下来介绍第三类数据,在本文中我们称其为「生产力价值数据」。
该类数据的一大用途是做机器学习,训练AI;另一大用途是做数据分析,帮助进行科学研究、产品设计、决策制定等。这一类数据如果被恰当使用,能够驱动社会往更有效率、更为友好的方向发展,它们是一种生产力。
第三类数据的采集范围最广,数据量最大。它可以来自于人类,比如个人的医疗数据和财务数据、个人的产品使用习惯数据等等;也可以来自于物联网设备,比如传感器收集到的大气情况数据、自动驾驶数据等等。
它的一部分数据来源与第二类数据相同,都是使用互联网产品的用户,只不过采集到的数据的处理方式和用途不同:第二类数据是取之于用户、用之于用户,而第三类数据是被集合后跨数据主体使用。从数据本身的角度出发,我们可以认为某个数据既是第二类数据,也是第三类数据。
第三类数据具有最大的数据价值,同时它们也有可能最先进入到数据使用权的交易市场,实现数据价值。
不同于第二类数据是互联网企业自己拥有数据使用权同时自己使用数据,不需要进行数据交易,在生产力价值数据的应用场景中,出现了不拥有数据使用权但希望使用数据的角色。从这个角度,我们可以认为第三类数据是指所有可资产化的数据的集合。
我们可以拿医疗数据为例来更好的理解如何使用第三类数据。科研机构或制药厂如果能有大量的医疗数据的支持,就能更好、更快的研究疾病和开发新药,但拥有数据资源的医疗机构因为用户隐私问题和自身利益,并不会把这些数据提供给其他机构使用。
如果我们通过隐私计算分离数据的所有权和使用权,就能建立起一个数据使用权的交易市场,不同医疗机构、科研机构和制药厂的数据就可以在这个平台上实现连通——流行的说法是打破数据孤岛——这些机构间可以进行数据的买卖,也可以数据共享进行联合的疾病研究。
如果我们要训练能够诊断疾病的AI,也需要通过上述方式打破数据孤岛,这样才能提供给AI更多、更全面的数据。
需要赘述的是,在现阶段,即使实现了数据的交易和价值,但因为数据使用权在法律上和使用上的边界都不明确,我们作为个体依然很难拿回全部的数据的价值。
数据所有权和使用权是这个时代最重要的议题之一,《人类简史》的作者、历史学家尤瓦尔·赫拉利的观点是:「如果我们希望避免财富和权力都集中到一小群精英手中,关键在于规范数据的权限」。
因为数据自身的复杂性和多样化,从边界清晰、可以被准确描述的细小处出发定义问题、解决问题,而不是寄希望于舆论、立法和技术能够整体解决问题,也许才是快速与有效的方法。我们可以对不同的数据类别进行更具体的分类和分析,或者用不同的分类标准探讨数据的分类,再基于此讨论数据的隐私、数据的所有权和数据的价值实现问题。
重新理解「数据即石油」
数据常被比作石油。
虽然楔形文字中便有人类在死海沿岸采集天然石油的记录,但直到1846年亚布拉罕·季斯纳发明从煤中提取煤油的方法,1853年伊格纳齐·武卡谢维奇和扬·策从原油中分馏出精炼的煤油,现代石油工业的历史才算真正开始。
不过这仅仅是开始,作为煤油灯燃料的石油并不特别,只有在后来当它被用于内燃机后,才爆发出巨大的潜力,并成为世界上最重要的一种资源。
数据与石油的相似之处在于,仅仅有数据还不够,只有实现了数据的「炼油术」,才有可能开启数据的产业时代。
而数据与石油的不同之处在于,石油是先有炼油厂,然后才有内燃机的需求,而数据是已有巨大的使用需求,却没有成熟的技术和基础设施支持这种需求。
这或许是一件好事。道路漫长,但我们知道方向。
参考资料:
1.《FederatedLearning:CollaborativeMachineLearningwithoutCentralizedTrainingData》
2.《Helpingorganizationsdomorewithoutcollectingmoredata》
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。