在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型 支持128种语言无障碍对话

改名Meta之后,Facebook的元宇宙愿景正在一点点实现。这一次,Facebook把目光投在了元宇宙社交上。

Meta发布语音处理模型XLS-R

近日,Meta正式发布XLS-R——一套用于各类语音任务的新型自监督模型。据悉,XLS-R由海量公共数据训练而成(数据量是过去的十倍),能够将传统多语言模型的语言支持量增加两倍以上。目前,XLS-R共支持128种语言。

Meta认为,语音交流是人们最自然的一种交互形式。“随着语音技术的发展,我们已经能够通过对话同自己的设备及未来的虚拟世界直接互动,由此将虚拟体验与现实世界融为一体。”

Telefónica与微软VR平台合作,计划在元宇宙中开启虚拟体验:金色财经报道,西班牙电信公司Telefónica与微软的Altspace VR平台合作,创建了其MWC展台的数字复制品。Telefónica计划在今年巴塞罗那世界移动通信大会期间开启虚拟之旅。数字复制品将允许世界各地的人们体验和详细发现该公司将在展会上展示的产品演示。

根据公告,人们还可以在体验中与任何人/化身互动。Telefónica还与游戏软件开发商Unity合作,后者将作为其开发元宇宙体验的战略合作伙伴,而与Niantic的合作则为创建增强现实体验提供支持。[2023/2/27 12:30:44]

这与扎克伯格此前宣称的“公司业务将以元宇宙优先”不谋而合。此前,扎克伯格曾概述了他建立“元世界”的计划:一个建立在我们自己的数字世界之上的数字世界,包括虚拟现实和增强现实。“我们相信元宇宙将会接替移动互联网”。

韩国男子演唱组合TXT将在元宇宙平台ZEP举办运动会:3月9日消息,韩国男子演唱组合TXT(TOMORROW X TOGETHER)将于3月26日在元宇宙平台ZEP举办名为“PLAY X TOGETHER”的迷你运动会。TXT将和100名粉丝将分成5队,以TXT MV中的学校、操场和地点为主题,进行各种游戏。(雅虎新闻)[2022/3/9 13:46:41]

而XLS-R作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙无障碍对话。

值得一提的是,为了通过单一模型实现对多种语言的广泛语音理解能力,Meta对XLS-R进行了微调,使其获得语音识别、语音翻译及语言识别等功能。据介绍,XLS-R在BABEL、CommonVoice以及VoxPopuli语音识别基准测试,CoVoST-2的外语到英文翻译基准测试,以及VoxLingua107语言识别基准测试中都取得了不错的成绩。

麦当劳正在元宇宙中庆祝农历新年:2月1日消息,麦当劳与时尚先锋Humberto Leon合作打造专属十二生肖服装系列,并在元宇宙中举办活动,“为快餐和时尚爱好者提供身临其境的虚拟现实体验”。

活动于1月31日到2月15日间举行,将在VR空间“麦当劳画廊”接待参观者,并会展示Leon在AltspaceVR和Spatial虚拟世界中的数字作品。粉丝们将收到基于出生年份和生肖动物的星座预测。[2022/2/2 9:27:50]

为了尽可能降低功能访问门槛,目前,Meta与HuggingFace联手发布了模型本体,并通过fairseqGitHubrepo全面开放。

试用地址:https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

《侠盗猎车手》开发公司CEO:公司已在元宇宙领域占据主导地位:11月5日消息,《侠盗猎车手》开发公司Take-Two CEO Strauss Zelnick周四接受CNBC采访时称其公司已在所谓的元宇宙领域占据主导地位。他表示:如果从收入和利润的角度看,我认为我们可能是全球最大的元宇宙公司,我们推出了《侠盗猎车手》线上版本,我认为它真正定义了今天的元宇宙。Zelnick不认为Meta的元宇宙愿景是消费者想要的,他认为消费者想专注于娱乐,而非现实生活的虚拟延伸。他说:我不认为我们会在早上醒来坐在家里,戴上头盔,然后以这种方式执行所有日常活动。疫情期间我们不得不这样做,但我们并不喜欢这样。(CNBC)[2021/11/5 6:32:40]

XLS-R工作原理

据介绍,XLS-R在wav2vec2.0训练集上接受了超过43万6千小时的公开语音录音训练,从而实现了对语音表达的自监督学习方法。这样的训练量已经达到去年发布的当时最强的模型XLSR-53的10倍。利用从会议记录到有声读物的多种语音数据来源,XLS-R的语言支持范围扩展到128种,涵盖的语种量达到前代模型的近2.5倍。

作为Meta打造的有史以来最大模型,XLS-R中包含超过20亿个参数,性能远高于其他同类模型。Meta表示,事实证明,更多参数能够更充分地体现、数据集中的各类语种。此外,Meta还发现,规模更大的模型在单一语言预训练方面的性能也同样优于其他较小模型。

Meta在四种主要多语言语音识别测试中对XLS-R做出评估,发现它在37种语言上获得了超越以往模型的效能。具体测试场景为:BABEL中选取5种语言,CommonVoice中选取10种语言,MLS中选取8种语言,以及VoxPopuli上选取14种语言。

BABEL上的单词错误率基准测试结果。XLS-R较前代模型实现了显著改进。

此外,Meta还评估了语音翻译模型,即将录音资料直接翻译成另一种语言。为了打造一套能够执行多种任务的模型,Meta同时在CoVoST-2基准测试的数个不同翻译方向上对XLS-R进行了微调,使其能够在英语与多达21种语言之间实现内容互译。

在使用XLS-R对英语以外的其他语言进行编码时,获得了显著的效能提升,这也是多语言语音表达领域的一次重大突破。据Meta介绍,XLS-R在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中BLEU准确率平均翻了一番。BLEU指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。

以BLEU指标衡量的自动语音翻译准确率,其中较高值表示XLS-R从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。

Meta认为,XLS-R证明扩大跨语言预训练规模可以进一步提高低资源语言的理解性能。它不仅提高了语音识别率,同时也将由外语到英语的语音翻译准确率提高了一倍以上。

“XLS-R是我们朝着以单一模型理解多种不同语言(语音)目标迈出的重要一步,也代表着我们在利用公共数据推进多语言预训练方面做出的最大努力。我们坚信这是一条正确的探索方向,将让机器学习应用更好地理解所有人类语音、并促进后续研究,大大降低语音技术在全球范围内、特别是服务匮乏社群中的使用门槛。我们将不断开发新方法,通过低监督学习拓展模型的语言理解能力、逐步使其覆盖全球7000多种语言,实现算法的持续更新。”Meta提到。

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

TRX了解 400 亿美元的 NFT 市场

如果我们认为我们对金融市场的了解都是错误的怎么办?每个人都一直认为,股票的价值反映了它所代表的业务的价值。按理说。为什么还有人会评估证券?然而,在2021年,人们交易了价值超过400亿美元的NFT.

屎币复旦大学联合发布《元宇宙报告(2021-2022)》

元宇宙的应用场景可分为核心层、技术层和环境层。核心层是元宇宙最基本最普及的应用场景,具有用户覆盖面广、技术实现度高与生活最贴近的特点,满足用户基本的元宇宙生活需求;技术层是元宇宙的领先场景,具有技术创新性、概念引领性、话语斗争性的特点.

LTC金色观察|五大预测:BTC将在2022年经历什么

起起伏伏,跌跌荡荡,辞旧迎新。在新的一年中,展望我们所在的行业,看看这些大咖眼中BTC在2022年有哪些小目标?预测一:BTC成为部分国家法定货币1月27日,三箭资本创始人SuZhu在推特上表示,“我对2022年只会做出一个预测,那就.

[0:0ms0-1:969ms