国内“ChatGPT们”的出路在何方?

写在前面

2月13日,《2022年北京人工智能产业发展白皮书》正式发布,其中提到全面夯实人工智能产业发展底座,支持头部企业打造对标 ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。

很巧的是,飒姐团队成员在今年10月份的时候测评过:百度文心、源1.0、某道,三款国内现有的大模型,当时对测评结果甚是遗憾。于是又将当时的测试内容让ChatGPT做了一遍,试图摸清国内外大语言模型在问答这一领域的实际差距,旨在希望国内产学研戒骄戒躁,稳扎稳打地发展。

测试方案

本次测试仅仅考虑非连续性的单次问答,且皆为常识性问题,答案唯一,但题目会有一定的挑战性。具体的,涉及到What,When, Where, Who, Which五类问题。

美的集团联手咖菲科技共同发起国内首个公益数字藏品项目:1月21日,美的联合绿发会和咖菲科技,共同发起「熊小美守护濒危动物「元宇宙」」数字藏品项目,落地国内公益广告第一个应用 NFT 的元宇宙营销案,守护濒危动物的未来。据悉,本次限量发售 12 套共计 20220 份生肖主题数字藏品,售价均为 19.9 元。[2022/1/21 9:03:41]

问题样例如下:

1. “是什么(What)”型问题,如“爸爸的爸爸叫什么?”

2.“什么时候(When)”型问题,如“人们一般什么时候过元旦?”

3.“什么地点(Where)”型问题,如“孙中山安葬在哪里?”

4.“是谁(Who)型问题”,如“中国历史上第一个皇帝是谁?”

5.“哪?个(Which)型问题”,如“哪个洲是倒数第二小的洲?”

问答样例对比

银保监会金融机构监事:国内挖矿难以完全禁止 本次监管主要针对企业:6月6日消息,银保监会重点金融机构监事会正局级监事陈伟钢接受采访时表示,此次可以说是全面封杀,其实三年多前就禁止了包括比特币在内的虚拟货币交易,目前境内没有任何一家交易所。

陈伟钢说,国内的挖矿仍难以完全禁止,这次主要针对企业挖矿行为。可以通过收入与支出端的财务审计实现管控,如企业挖矿最终一定会体现为营收、利润增值,如果一部分利润属于挖矿得来,可以不允许企业入账,通过这样的方式可以封堵企业的挖矿行为。一些个人购买矿机挖矿,特别是在一些水电较为丰富的地区挖矿,如何封堵还有待下一步观察。但相当于砍掉大户,剩下的小户虽然数量很多,但是总量不大。

陈伟钢说,比特币甚至不算一种投资品,只能算是一种“炒作品”,国外的比特币交易更多是一些机构、财团间的游戏,但在中国以散户投资为主。就像此前的P2P,其实在英国、美国等国家出现的时间比国内早,但是P2P在中国最顶峰时参与的人群范围非常广,这次炒作比特币也是同理。关于国外的合规化趋势,陈伟钢认为,国外可以存在的东西不意味着在中国也有存在的合理性。(中国新闻周刊)[2021/6/6 23:15:55]

问题:“孙中山(孙文)安葬在哪里?”

国内首个区块链特色司法鉴定机构在京成立:3月28日,国网区块链司法鉴定中心在京成立。这是国内首个以区块链技术为特色的司法鉴定机构,将加速区块链在能源数字化治理领域的创新实践,探索基于区块链的法律科技服务新模式。此次成立的国网区块链司法鉴定中心已于近日经北京市司法局批准获得电子数据司法鉴定资质,中心将依托国家电网电商公司所属的国网区块链科技公司开展运营。相关负责人表示,将围绕碳交易、绿电溯源、可再生能源消纳等“碳达峰、碳中和”业务,探索搭建区块链电子证据司法联盟链,不断提升能源互联网数字化治理效力。(北京日报)[2021/3/29 19:24:39]

ChatGPT:孙中山的遗体最初安葬在南京中山陵内,后因战乱多次迁移。最终于1929年安葬在南京中山陵北麓的紫金山下,此地现为孙中山陵园。

百度文心:孙中山墓地

某道:"孙文(1866年-1925年10月12日),名文,字载之,号仲立,又名帝光,广东省香山县(今中山市)南朗镇翠亨村人,1883年(光绪九年)随父移居澳门。1904年参加孙中山领导的同盟会,任同盟会南方支部书记。曾两次赴日,组织策划惠州起义。后回澳门发展组织,被选为中国同盟会南方总支部庶务部长。1905年春,与陈少白、朱执信等在香港成立兴中会,被举为评议部评议员,旋被派往南洋联络同志,协助筹办革命刊物《中兴日报》。1906年冬,孙中山在日本东京成立中国同盟会中部总会,被委为秘书。1907年奉命回国,在广东发动民军起义。事败后潜赴南洋,继续组织发动华侨、华工和留学生进行革命活动。1911年武昌起义爆发后,被派往广州协助筹划起义,不幸事泄被捕,不久在广州黄花岗就义。

动态 | 欧诗漫推出号称国内首个的区块链护肤品:浙江欧诗漫集团1月19日宣布旗下护肤品牌欧诗漫(OSM)产品中,一款名为“小白灯”的精华液成为该集团首个应用区块链技术的产品。欧诗漫数字研究院副院长王迎帅曾在去年11月的国际区块链大会上称,欧诗漫的数字证明系统开发已经完成,区块链技术应用的方案设计也接近尾声。并表示,区块链技术可以让生产、销售、购买等公开透明。欧诗漫将通过区块链技术的应用,建立珍珠生物制品全生命周期质量管理体系。不过,根据目前该集团披露的信息来看,并未具体说明如何将区块链技术应用在“小白灯”上。该集团称这种将区块链技术应用于美妆产业的方式是首次在国内出现,欧诗漫集团将其称为“德清智造”。德清县已正式启动打造区块链小镇的计划。欧诗漫此次也仅限于将区块链技术应用在一款正在热推的产品上,并未说明消费者端可采用的应用方式,因此还很难判断是否能真正完善消费体验、满足消费者对产品信息的需求。[2020/1/20]

源1.0:孙中山安葬在南京紫金山中山陵

国内土豪用莱特币购买四辆F1赛车:据了解,一名中国土豪已经和英国Heritage F1经销商达成协议,将会购买四辆F1赛车,总价值大约为400万英镑,不过这位土豪不会使用法定货币购买,而是全部通过莱特币完成支付。据悉,本次F1赛车购买交易是由伦敦的艺术品经销商伊莱莎?达戴迪(Eleesa Dadiani)策划的。有趣的是,早在今年七月份,她的画廊就能允许买家使用比特币、以太币、以太坊经典、瑞波币、莱特币和达世币购买艺术品了。[2017/12/13]

问题:哪个洲是倒数第二小的洲?

ChatGPT:开始回答了错误的答案,与其对话后成功纠正(AMAZING!)

百度文心:南极洲

某道:南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)“

源1.0:大洋洲

总体分析

四个系统对于基本问题的问答可谓是手到擒来(本次样例问题直接排除了简单的基本问题,挑战难度较高,因此整体错误率较高)。五类问题中,when问题和who问题整体回答的情况最好。三个国产系统中整体文心系统的表现最好。ChatGPT也会犯错,但是往往只要略微引导,便能改正错误。

错误回答分析

错误语句生成:语句本身并不通顺,前后主题不一致或者内容不一致,给人错乱的感觉。

例如问:爸爸的爸爸称谓是什么?

答:  爸爸的父亲,也就是爸爸的爷爷,是妈妈的爸爸。爸爸的爷爷的爸爸叫太爷爷。爸爸的爷爷的爷爷叫太奶爷(奶奶的爸爸)

或问:我们党二大在哪里召开?

答:1921年7月23日至31日,中国第二次全国代表大会在浙江省嘉兴市南湖的一艘游船上召开。出席大会的正式代表共13人,候补代表5人,代表全国121名员。共产国际代表马林、尼科尔斯基和鲍罗廷等参加了会议。

事实性错误:产生了事实性的错误。

例如问: 孙文去世的日子?

答:孙文去世的日子是1918年3月13日

偏见性素材:回答取自的素材较少,体现比较强的笔者的主观性。

例如问:大家什么时候过元旦?

答:谢邀。我是在大学过的,所以元旦是在宿舍过的。我们宿舍六个人,有四个人都回家了,剩下我一个在宿舍,所以元旦那天我过得比较孤独,不过还好啦,因为宿舍就我自己了,所以我可以一个人吃饭,一个人看电影,一个人逛超市,一个人睡觉,一个人......

含有逻辑性的问题无法识别:问题中存在复合问题或者逻辑判断,一般难以处理。

例如问:哪个洲是倒数第二小的洲?

答:" 南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)

写在最后

飒姐团队认为,传统的单一问答模型可用性不大,给予用户的体验感也欠佳,国产大语言模型下一个里程碑,前辈ChatGPT已经给出了方向,便是对话问答。在使用ChatGPT的时候,虽然它也经常会给出错误答案,但是其回答的逻辑依旧符合人的习惯,同时经过一定的对话引导,可以自行发现其回答逻辑性的缺失。

作为全新的一种数据合成方式,大语言模型的直接输出可能是我们人类无法把控的,但是只要它能“理解”用户的输入,以此为依调整其输出,最后得到满意的回答,那便是可用的。进一步的,大语言模型未来的趋势很有可能是提前预判用户可能的“纠错”,并提前“自纠错”,并对纠错结果进行评估。

肖飒lawyer

个人专栏

阅读更多

金色早8点

金色财经

Odaily星球日报

欧科云链

澎湃新闻

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

链得得

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

波场元宇宙退潮?相关大厂纷纷调整布局战略

在近期人们疯狂执迷 AI 之前,市场追逐的还是元宇宙的前景,不过一些最新进展显示,各企业对元宇宙的期待已呈现退潮之势。腾讯本周对外宣布,腾讯游戏 XR 业务将变更硬体发展路径,并对相关业务团队进行调整.

[0:15ms0-1:766ms