巨瓜来临!GPT-4模型构架等信息疑似泄露,给大家讲讲来龙去脉!

引子

今天上午正在日常搬砖,突然各路信息席卷而来:“赶紧的,GPT-4模型构架泄露啦,国产大模型要再次超越啦!”。打开社媒一看,好么,都不用会英语,国内的人翻机翻都已经上线了,这速度,我是真的服气。但是,等我去追根溯源,看看信息道理有几分靠谱的时候,我突然就有把科技圈逛出了娱乐圈的感觉。我觉得这事儿最有意思的可能还不是爆的料,反而是爆料的这不到24小时发生的这些事。如果再结合前面OpenAI搞得几个大新闻,还确实有点意思。

鉴于目前“FakeNews”满天飞的互联网现状,我看到这个消息后,干的第一件事就是追本溯源。爆料谁都可以,前面打车的时候司机师傅还给我爆料ChatGPT是外星科技了,我就一点都没信。现在所谓的“外媒”一爆料我就直接信了,那未免还是对司机师傅有点不尊重了。

来龙去脉

我信息挖掘的起点是HackerNews上发表的这篇文章《GPT-4'sdetailsareleaked.Itisover.》。我点进去发现并非原文,而是一个ThreadReader。所以我就又顺藤摸瓜,找到了这些Twitter的发布人—YamPeleg。

其实我Twitter上知道的人并不多,但是这老哥我还真看过他以前的文章。他是以色列一个创业公司的CEO,本人工程经历丰富,很懂LLM。曾经尝试反向破解过GPT-4和ChatGPT代码解释器。六月OpenAI访问以色列的时候,他还去参加座谈沟通了,并且还和SamAltman合影了。读这老哥的文章,我就禁不住想起来当面在以色列时候的当地的学生联络员Tom,随便说点啥都能给你搞得热血沸腾的。这老哥一直在研究OpenAI,也认识OpenAI内部很多人,所以他如果得到了点啥内部消息,我觉得可信度其实还挺高的。

Kaiko:AI概念代币的周交易量达到年内最低:金色财经报道,数据分析公司Kaiko最近的一份报告显示,人工智能(AI)相关概念代币的交易活动有所减少。该报告分析了一些最受欢迎的人工智能代币的每周交易量,例如 Fetch.ai (FET)、Injective (INJ)、Oasis Network (ROSE)、Render (RNDR)、SingularityNET (AGIX) 和 The Graph (GRT)。根据 Kaiko的调查结果,这些代币的周交易量经历了年初以来的最低水平。

多种因素可能导致交易活动减少,一方面,鉴于最近更广泛的加密货币市场下跌,总体市场情绪可能会影响人工智能相关代币。此外,人工智能加密货币行业特有的特定因素,例如监管问题,也可能是造成交易量下降的原因。[2023/7/28 16:03:24]

但是!等我晚上准备去仔细研读下他发的东西的时候,突然发现,他把前面发的都删了。说是因为版权问题,本来我以为是被OpenAI捂嘴了,还庆幸自己留了档。后面仔细一看,发现不是因为OpenAI的版权,而是因为另外一个付费专栏的版权。

原来Yam老哥并不是原创,而是看了SemiAnalysis的付费专栏文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》,然后把里面的一些核心信息加上自己的理解共享出来了。所以其实真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

全球物流巨头UPS在Decentraland推出元宇宙商店:10月4日消息,全球最大的航运和包裹供应服务公司之一UPS正式加入元宇宙,这家跨国公司在Decentraland开设了一个虚拟门店,旨在为虚拟世界里的中小企业提供服务,不过现阶段UPS并不会在Decentraland中提供一对一交互支持,他们还与Fast Company合作开设了一个虚拟教育学院以为小型企业提供销售和营销培训服务。UPS早在今年四月就申请了元宇宙和NFT商标,希望以此保护相关领域里的品牌IP。(Ledger Insights)[2022/10/4 18:39:21]

SemiAnalysis是一个精品半导体研究和咨询公司,专注于从化学原料到晶圆厂到设计IP和战略的半导体供应链。它由DylanPatel创办,他是一位有着多年半导体行业经验的分析师和工程师。他曾在英特尔、AMD、高通等公司担任过不同的角色,从设计工程师到市场营销经理。SemiAnalysis的团队还包括GeorgeCozma,GeraldWong,MyronXie,AfzalAhmad,AleksandarKostovic,SophiaWisdom等多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域,如AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计IP和战略的全方位的半导体供应链分析和咨询服务。

日本政府向地方当局颁发NFT证书:金色财经报道,根据CoinPost的一份报告称,所谓的“数字证书”被授予“2022年夏季Digi Takoshien”竞赛的地方政府当局获胜者,以嘉奖其在该竞赛中使用数字技术振兴当地社区的努力。

NFT奖励由日本内阁官房长官松野博和领导的政府机构内阁秘书处发放。岸田首相也出席了颁奖典礼,这是该机构第一次使用NFT。

岸田首相今年曾多次谈到NFT,并表示元宇宙和NFT相关的创新可以促进日本Web3的发展。[2022/9/8 13:15:15]

前面那篇著名的谷歌内部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他们爆出来的,这篇文章后面被证实为真。这样看来,DylanPatel老哥可能确实有些内线,他们给出的信息可信度应该还是可以的。当然,我也发现了他们为啥这么急着让Yam老哥删推,因为这些“内部信息”确实价值不菲,订阅SemiAnalysis的付费文章,一年要500美刀。Yam老哥订阅的精英版更是要1000美刀。

爆料分析

讲清楚了来龙去脉,我们可以得到一个基础结论,就是这个爆料还是有一定的可信性的。然后,我又根据爆料的内容以及前面获得的其他爆料信息,综合分析了下。这里还是先给大家说结论:

以太坊核心开发者会议就监管提出协议级抗审查策略:8月21日消息,近日结束的以太坊全体核心开发者(ACD)电话会议上,开发人员详细讨论国家级机关对以太坊协议监管审查的应对策略。

首先,围绕MEV中继器(如Flashbots)对以太坊交易审查的问题,Flashbots团队一名成员表示,合并后以太坊上MEV-Boost软件或将增加在第三方区块构建者创建的区块中添加新交易的新功能。此外,Flashbots本周已开源其运行中继软件,这将鼓励更多不会审查区块构建者和交易的中继在合并后的以太坊上建立和运行。以太坊创始人Vitalik Buterin表示,只要有几个活跃的验证者不运行Flashbots或连接到抗审查中继,那么即使是不合规的交易,最终也能得到处理。

其次,围绕Coinbase和Lido等大型Staking服务提供商对以太坊交易审查的担忧,开发人员提出可以采取Social Slashing来惩罚这种行为,即协调以太坊实施硬分叉剔除违规验证者。此外,开发人员表示,迫使Staking服务商审查交易的不利立法或将导致Staking服务商搬离美国。[2022/8/21 12:38:35]

爆料可信度较高。本次爆料的来源有一定可信度,爆料的内容和前期已经披露的内容也基本都能吻合。所以我倾向于爆料的大部分内容都是来自OpenAI的泄漏,有真实的事实基础,但是给出的数据未必一定准确。毕竟,也不是所有人都能够获得详细准确的内部数据,但是应该不会偏差太多。爆料对于私有模型有一定意义,对于开源模型意义有限。这次爆料的主要亮点对开源社区的影响可能并不会太大。影响最大的MoE其实已经被爆料过了,目前应该已经有相关的开源模型在路上。除此之外其他的爆料亮点都主要是利好其他私有模型竞争对手,例如比较准确的模型大小、并行策略、模型构架以及多模态构架等。具体我们后面具体分析。个人的奇怪推论。说实话,这个时间点的爆料不得不让我觉得有点奇怪,感觉DylanPatel老哥有一种在帮openAI官方爆料的感觉。结合我这篇文章更是觉得事有蹊跷。要知道,如果这篇爆料文章早一个礼拜发,大家甚至是可以通过ChatGPT的搜索模式直接白嫖文章内容的。咋给我一种,为了让他们能够安心的爆料自己,OpenAI特意把ChatGPT的搜索模式都关闭了的感觉。当然,我这个猜测是毫无根据的,这样做确实也对OpenAI没有任何好处。所以,获取是我多想了,就是赶巧了而已。对于爆料原文感兴趣的可以看我最前面贴的HackerNews的文章,少了些逻辑和修辞,和付费的原文的核心内容是一样的。没耐心一点点钻原文的,我这边直接给大家总结几条要点。

Chainproof获得SOMPO Light Vortex种子投资和基础支持以及慕尼黑再保险的支持:金色财经消息,Chainproof获得SOMPO Light Vortex的种子投资和基础支持。并获得慕尼黑再保险的支持,成为受监管的智能合约保险提供商。

据悉,Chainproof由区块链安全审计公司Quantstamp孵化。[2022/7/6 1:56:03]

爆料参数整理

这次爆料的一个亮点就是给出了GPT-4的部分明确参数,这些参数前面有过很多猜测,但是官方一直都没有披露,提到的时候都说的很模糊。这些参数包括:

模型参数量:1.8兆,比GPT-3.5大10倍左右。模型层深:120层。模型构架:混合专家模型,一共16个专家,每个专家1110亿参数量。每次向前传递选择两个专家。训练数据:共13兆数据。文本数据被重复训练了2次,代码数据被重复训练了4次。这个数据其实挺重要的,后续具体分析。并行策略:8路张量并行+15路管道并行。预训练上下文:8K。32K版本是在8K基础上微调的。我的推论1:GPT-5会是一个全新构架的多模态LLM

GPT-4是一个由16个专家模型组成的MoE。每个专家1110亿参数量。每次向前传递选两个专家。然后注意力机制共享550亿参数。所以,每次推理的时候,事实上耗费的参数量约为2800亿。这个数字也和前期很多学者预测的类似。

训练数据上面写了,我就不复述了。这里强调下,文本和代码数据都是被重复训练了的。再结合MoE构架,我个人猜测:要么目前可以比较方便获取的高质量文本数据已经接近枯竭要么无限制得增大数据量对LLM性能得提升已经非常有限了。但是,无论是哪一种,我们都可以推断,下一步的GPT-5一定会是基于多模态数据的。GPT-5想要有大的性能突破,就必须能够充分利用现存的大量视频、图片以及音频数据。

但是,根据这次的爆料,OpenAI目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器,与文本编码器分开,但存在交叉注意力。它就是在文本预训练后,进行了约2万亿个Token的微调。这种模式明显无法充分利用已有的视频、图片以及音频数据。

所以,前面OpenAI一直强调的没有在训练GPT-5大概率是真话。因为他们在训练GPT-5之前找到一个更好的多模态模型构架,让模型可以充分的利用音视频数据。只有能够利用这些优质的训练数据,GPT-5才有可能获得足够的能力提升。同时,如果GPT-5真的能够充分利用这些音视频数据的话,那不管是AGI还是OpenAI最近提出的超智体,似乎确实也没那么遥远了。

我的推论2:私有模型的竞争将集中在并行能力上

根据此次爆料,目前如果要训练一个GPT-4竞品,按照使用约8,192个H100芯片来估算,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。这个成本对于目前波涛汹涌的LLM市场来说,真的不算大。国内目前的主要玩家都可以比较轻松的承担数次训练。所以,这次说真的,再过半年模型能力对标GPT-4可能真的不是吹牛逼。

如果训练成本不是问题,那么训练数据会不会成为问题呢?目前看来也不会。GPT-4的训练数据共13兆。这个规模并不是特别夸张,且它的很多数据来源国内也可以获取,再加上国内本身也积累了很多中文资源,所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题,其实也不存在太多的技术秘密,方法还是比较公开的。给足够的资源,半年时间应该都可以解决。

所以,最后剩下的就是并行能力了。其实这次爆料里面用了极大的篇幅去介绍相关的内容,专业程度还是比较高的。这里我就不具体展开说了,总体来说,就是你有了大模型,如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题,在运算资源固定的情况下,应该如何分配不同环节的运算资源?如何处理并发?如何管理内存?

当大家的模型能力都大差不差的时候,那个模型好用,不就取决于用户体验了么!并行处理的能力,就直接决定了用户体验。目前GPT3.5已经做到了无论是ChatGPT还是API都非常丝滑了,这是非常厉害的。这里大家可能会说,我体验的其他国产LLM或者Claude都比GPT3.5还快啊。但是,大家没有考虑使用的量级问题,GPT3.5在这么高的并发下有这样的性能,其他的厂商如果匹配不了OpenAI的这个能力,也就没能力来抢OpenAI的市场。

所以,并行能力可能会成为各路OpenAI竞争对手的角逐重点之一。

我的推论3:OpenAI可能是有意放出的本次爆料

这个推论就完全是个人的瞎猜了。事实根据不足,大家看看就好。

OpenAI很清楚GPT-4的护城河并不高,即使现在OpenAI已经不open了,但是在这种热潮中,竞争对手迎头赶上也并不困难。并且,他们现在的多模态大模型构架应该还没有搞定,这个时候如果有新的玩家上来就从多模态开始搞,OpenAI被弯道超车的概率也是很大的。所以这可能是OpenAI的缓兵之计,我就给你们透露一些GPT-4的信息,让头部的玩家都先去做GPT-4的复刻工作,把OpenAI已经走过的路也再走一遍。

如果在这个过程中,OpenAI给GPT-5的训练打好了基础,完成了多模态大模型的前期攻关,即使GPT-4已经被其他的大语言模型超越,OpenAI也有恃无恐了。个人认为,多模态很可能就是人卷人的最后一代了。后面的模型开发和演进说不定就以AGI为主力了,也就是说,这次赢了,可能就赢到最后了。

结语

本次的爆料绝对是GPT-4发布以来最大的瓜。但是,我并不是很推荐大家去研究这次的爆料内容,大家看看别人的总结就好了。爆料的很多内容看起来还是比较费劲的,并且费半天劲看懂了也没用,懂了你也没法实践,白懂。

不知不觉又码了这么多字,能看到这里的都是真爱,看完留个记号再走吧,您的支持就是对我最大的鼓励~

博览AI的奥秘,博学AI的知识,博交AI的朋友,我是博而不士,欢迎加入我的AI探索之旅。关注我,一起玩转AI。

推荐阅读:

Claude:无需魔法、完全免费、GPT3.5的最佳国内替代「一文说清」

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:0ms0-1:112ms