金融圈注意了 BloombergGPT来了

ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型——BloombergGPT。

3月30日,根据彭博社最新发布的报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。

报告显示,该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务。该模型在金融任务上的表现远超过现有模型,且在通用场景上的表现与现有模型也能一较高下。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。

央行:加密货币已达1万余种,存在威胁金融安全和社会稳定的潜在风险:7月16日消息,央行发布《中国数字人民币的研发进展》白皮书。白皮书介绍,加密货币特别是全球性稳定币发展迅速,据不完全统计,目前有影响力的加密货币已达1万余种,总市值超1.3万亿美元。比特币等加密货币采用区块链和加密技术,宣称“去中心化”“完全匿名”,但缺乏价值支撑、价格波动剧烈、交易效率低下、能源消耗巨大等限制导致其难以在日常经济活动中发挥货币职能。

同时,加密货币多被用于投机,存在威胁金融安全和社会稳定的潜在风险,并成为等非法经济活动的支付工具。 针对加密货币价格波动较大的缺陷,一些商业机构推出所谓“稳定币”,试图通过与主权货币或相关资产锚定来维持币值稳定。有的商业机构计划推出全球性稳定币,将给国际货币体系、支付清算体系、货币政策、跨境资本流动管理等带来诸多风险和挑战。(北京商报)[2021/7/16 0:57:57]

关于BloombergGPT

历史上的今天丨法国金融市场管理局发布数字资产服务提供商许可新规:2019年12月27日,法国金融市场管理局(AMF)已发布了有关数字资产服务提供商(DASP)许可的新规则,以及有关申请非强制性许可并向AMF通报内部网络安全实践的指南,为企业提供了申请的机会。该规则和指南扩展了法国的PACTE法,这是欧洲最早通过的加密立法程序之一,如要申请,每个DASP都必须向AMF发送一份为期两年的业务计划,该公司将要提供服务的数字资产清单,该公司将运营的地区以及该公司的组织结构图。[2020/12/27 15:49:38]

报告指出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,通过构建迄今为止最大的特定领域数据集来完成BloomberGPT,并基于通用和金融业务的场景进行混合模型训练:

彭博社主要是一家金融数据公司,数据分析师在公司成立的四十年的时间里收集了大量的金融文件,拥有广泛的金融数据档案,涵盖了一系列的主题。

动态 | 三井住友出资SBI旗下子公司,利用区块链构筑面向企业及个人的金融服务基础:据日经新闻1月30日消息,三井住友金融集团和SBI控股公司合作使用区块链构筑面向企业和个人的金融服务基础。三井住友将出资14%,接管SBI及其子公司SBI R3的股份,在企业的贸易金融和个人的银行间汇款等方面普及分布式账本技术服务。另外,SBI旗下使用Ripple结算服务技术xCurrent的分公司“Money tap“也由三井住友出资。[2020/1/30]

我们将这些数据添加到公共数据集中,以创建一个拥有超过7000亿个标签的大型训练语料库。

使用这个训练语料库的一部分,我们训练了一个具有彭博风格的,达500亿参数的模型,该模型是根据Hoffmann和LeScao等人的指导方针设计,基于通用和金融业务的场景进行混合模型训练。

结果表明,我们的混合训练方法使我们的模型在金融任务上的表现大大超过了现有的模型,而在通用场景上的表现则与之相当甚至优于现有模型。

声音 | 中国金融学会副秘书长:CBDC要先被14亿中国人用好,微信、支付宝或不在首批授权之列:近日,中国金融学会副秘书长杨再平表示,中国人民银行正高度重视我国金融科技的发展;央行数字货币(CBDC)首先要被 14 亿中国人用好,然后再逐步推向一带一路,进而推向全球市场。此外,其指出,现在的支付宝或者财付通,都还是通过银行做小额支付,是从银行派生出来的一种支付方式。中国的央行数字货币,第一步还是只对商业银行开放,以后涉及到零售之后,可能会把支付宝、微信拉入这个体系。(Coindesk中文)[2019/9/2]

1.BloombergGPT优势:特定领域模型仍有其不可替代性且彭博数据来源可靠

英国金融监管局就加密风险向银行发出信函:英国金融监管局(FCA)已经向各大银行的CEO们发出信函,提示他们在处理加密货币时所面临的潜在风险。作为全英58000家金融机构的监管方,FCA此前就已经对投资加密货币的风险发出过正式警告。在最新的警告信函中,FCA敦促银行需对客户的加密货币投资行为进行更严格的审查。[2018/6/12]

在论文中,彭博社指出,现阶段,通用的自然语言处理模型可以涵盖许多领域,但针对特定领域模型仍有其不可替代性,因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型尤其优势,同时可以在通用LLM基准测试上保持竞争力:

除了构建金融领域的LLM外,本文的经验也为其他研究领域的专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用基准上表现优异的模型。

此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。

2.BloombergGPT的训练数据集:

BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。

为了提高数据质量,FINPILE数据集也使用了公共数据集,例如ThePile、C4和Wikipedia。FINPILE的训练数据集中大约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。

对金融领域的理解更准

报告指出,在金融领域中的自然语言处理在通用模型中也很常见,但是,针对金融领域,这些任务执行时将面临挑战:

以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情感,但在金融情感方面,它有时可能被认为是积极的,因为它可能导致公司的股价或投资者信心增加。

报告指出,从测试来看,BloombergGPT在五项任务中的四项表现最佳,在NER中排名第二。因此,BloombergGPT有其优势性。

测试一:ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。

测试二:FiQASA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。

测试三:标题,数据集包括关于黄金商品领域的英文新闻标题,标注了不同的子集。任务是判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。

测试四:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。

测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。

对于ConvFinQA来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。

ChatGPT为彭博点赞

华尔街见闻就这个问题专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:

它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。

这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

AAVE探讨如何构建十亿用户的Web3社交图谱

如何利用区块链和智能合约技术构建出十亿用户的Web3社交图谱?随着埃隆-马斯克最近接管了Twitter,关于从大型社交网络迁移到独立或开放的替代方案的讨论已经越来越多,但是所有那些刚开始幻想在加入繁荣的Twitter前居民社区的人.

[0:0ms0-1:812ms