ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

撰文:TanyaMalhotra

来源:Marktechpost

编译:DeFi之道

图片来源:由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功,大型语言模型正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI开发的ChatGPT是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways语言模型、Chinchilla等,在模仿人类方面也有很好的表现。

OpenOcean在Avalanche、BNB Chain、Ethereum上集成LINK喂价:金色财经消息,DEX聚合器OpenOcean在Avalanche、BNB Chain、Ethereum、Fantom和Polygon上集成了Chainlink喂价。

据悉,Price Feeds有助于为用户提供更高的保证,即他们在进行交易时收到最佳价格。[2022/8/10 12:14:37]

大型语言模型使用强化学习来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像ChatGPT这样的LLM表现出的卓越性能都要归功于强化学习。

加密交易平台Gemini获Blockchain Infrastructure Alliance战略投资:金色财经报道,由卡梅隆·文克莱沃斯(Cameron Winklevoss)和泰勒·文克莱沃斯(Tyler Winklevoss)兄弟创立的加密交易平台Gemini宣布已获得区块链基础设施联盟Blockchain Infrastructure Alliance(BIA)战略投资,这笔投资通过BIA成员和风险投资基金Draper Dragon 完成的,该基金由BIA和著名加密投资者和倡导者 Tim Draper 共同创立。

据悉,对 Gemini 的投资是BIA更广泛投资计划的一部分,该计划旨在促进去中心化技术和社区的扩展。自2021 年第四季度成立以来,BIA已经吸引了加密行业内多家实体加入,包括 Polygon、Avalanche、Alchemy Pay、NEAR 和 Algorand等。除了孵化有前景的新项目外,BIA还提供开发人员工具和文档、开源库、具有开源组件的去中心化应用程序、开发人员教育材料和互操作性解决方案等服务。(Alchemy Pay News)[2022/2/17 9:57:08]

ChatGPT使用来自人类反馈的强化学习,通过最小化偏差对模型进行微调。但为什么不是监督学习呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员SebastianRaschka在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。

币核科技与AnChain.AI达成战略合作:据币核科技官方消息,近日数字资产交易所系统服务商币核科技与区块链安全公司AnChain.AI达成战略合作,未来双方将携手深耕系统安全领域,在币核科技原有的冷热钱包隔离、多重签名以及独创托管清算体系基础上,结合AnChain.AI人工智能风控系统,对资金来源及去向进行AML 反审查,为币核科技交易系统生态再添铠甲。

AnChain.AI 是领先AI驱动的区块链安全风控合规公司,伯克利大学区块链加速器成员。创始团队来自世界顶级网络安全,云计算大数据企业软件行业和顶级银行合规风控团队。

币核科技交易系统产品已服务全球超过260家客户,2年间从未出现安全事故,一直以顶级安全为底线,为客户的资产保驾护航。[2020/6/28]

Riot Blockchain前CEO等三人与SEC就涉嫌低价抛售股票的诉讼达成和解:Riot BlockChain前首席执行官John O'Rourke在内的三名人士同意与美国证券交易委员会(SEC)就三起涉嫌低价抛售股票的交易达成和解,和解金额为350万美元。根据和解协议的条款, Michael Brauser、John Stetson和 O 'Rourke将支付赔偿金、判决前利息和民事罚款。O 'Rourke 's和Stetson将分别支付超过115万美元的罚款,而Brauser将支付约117万美元。O'Rourke以及其公司ATG Capital, Brauser和其公司Brauser 's Grander Holdings被永久禁止参与任何与低价股发行相关的活动,而Stetson和Stetson Capital Investments被禁止在10年内参与低价股发行。(Cointelegraph)[2020/3/11]

不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF则被训练来估计产生反应的质量,而不仅仅是排名分数。

SebastianRaschka分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的,而监督学习无法提供这种奖励。

不选择SL的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠SL是不够的,RLHF对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型,但根据经验发现RLHF往往表现得更好。2022年的一篇论文《从人类反馈中学习总结》显示,RLHF比SL表现得更好。原因是RLHF考虑了连贯性对话的累积奖励,而SL由于其文本段落级的损失函数而未能很好做到这一点。

像InstructGPT和ChatGPT这样的LLMs同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用SL对模型进行微调,然后使用RL进一步更新。SL阶段允许模型学习任务的基本结构和内容,而RLHF阶段则完善模型的反应以提高准确性。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:46ms0-1:656ms