Meta开源大模型多语言多音生成
和 OpenAI、Google 分道扬镳,Meta 在开源大模型方向上越走越深。
(资料图片仅供参考)
今日,Meta 在 GitHub 上再次开源了一款全新的 AI 语言模型——Massively Multilingual Speech ( MMS,大规模多语种语音 ),它与 ChatGPT 有着很大的不同,这款新的语言模型可以识别 4000 多种口头语言并生成 1100 多种语音(文本到语音)。
在上线短短的几个小时,该 GitHub 库便收获了 23k Star,Fork 数量高达 5.5k。
初衷
对于开发这款 MMS 模型,Meta 表示,「为设备配备识别和产生语音的能力可以让更多的人访问信息」。
不过,虽然全球已知的语言种类高达 7000 多种,但是现有的 AI 语音识别模型仅能够涵盖 100 种语言,范围太小了。
同时, 语音识别和文本转语音模型通常需要对数千小时的音频进行训练 ,对于大多数语言而言,这些数据根本就不存在。甚至全球多种语言在时代不断发展中,会有不少在未来几十年有消失的危险。
为了能够保护世界上语言的多样性,也想要为濒临消失的语言做一些贡献,Meta 研究团队研发并开源了 MMS,「我们公开分享我们的模型和代码,以便研究界的其他人可以在我们工作的基础上进行构建」。
当然,想要收集数千种语言的音频数据是开发这款大模型首先需要克服的困难。
在最新的 MMS 开源语音模型中,Meta 使用了一种非常规的方法来收集音频数据,他们使用了圣经等宗教文本。
Meta 对此解释称,“我们使用宗教文本,是因为这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音,记录了人们用不同的语言阅读这些文本的情况。”
作为大模型项目的一部分,Meta 创建了 1100 多种语言的数据集,每种语言平均提供 32 小时的数据。
另外,结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。
支持数千种语言的单一语音模型
当然,依靠这些数据,很多人认为这个是偏向宗教的一种 AI 模型。事实上,Meta 表示,并非如此。
Meta 在公告中写道, “虽然录音的内容是宗教的,但我们的分析表明, 这并没有使模型过度偏向于产生更多的宗教语言。 我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。”
在训练这个模型时,Meta 结合使用了自家公司的“自监督语音表示学习”模型——wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型能够带来不错的效果。
根据官方测试数据表明,与现有的模型相比,Meta 在使用 1B 参数 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型。随着语言数量的增加,性能确实会下降,但幅度很小:从 61 种语言增加到 1,107 种语言,字符错误率仅增加了约 0.4%,但语言覆盖率增加了 18 倍以上。
在与 OpenAI 的 Whisper 模型比较时,其在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。
毋庸置疑,MMS 开源模型的到来,不仅扩大了文本生成语音的语言范围,也极大地提升了准确率。
局限性
不过,Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。”
“根据输出结果,这可能会导致攻击性或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”
对于语音大模型的未来,Meta 称也做了设想,希望可以通过一个模型解决所有语言的多个语音任务。“虽然我们为语音识别、语音合成和语言识别训练了不同的模型,但我们相信在未来,一个模型将能够完成所有这些任务以及更多任务,从而带来更好的整体性能”,Meta 说道。
当然,我们也期望这一天能够早日到来。
GitHub 地址:https://github.com/facebookresearch/fairseq/tree/main/examples/mms
公告:https://ai.facebook.com/blog/multilingual-model-speech-recognition/
标签:
相关文章
Meta开源大模型多语言多音生成
整理|屠敏出品|CSDN(ID:CSDNnews)和OpenAI、Google分道扬镳,Meta在开源大模型方向上越走越深。今日,Me
做什么面膜可以去掉脸上的法令纹_做什么面膜可以祛痘
1 蜂蜜豆腐祛痘面膜:材料:蜂蜜15ml,豆腐1块,面粉适量,矿泉水适量。做法:将蜂蜜、面粉、矿泉水混合在
国泰航空再致歉:已暂停有关空中空服员飞行任务,即时展开内部调查 每日看点
App5月23日消息,国泰航空发布声明称,“就有关旅客在5月21日国泰航班CX987上的经历,引起大家的广泛关注,
大同公交1路 17路 27路 31路绕行通知 环球聚焦
关于迎宾街三医院岗至消防岗运行线路临时绕行的通知从2023年5月20日起,城市管理部门组织施工单位对迎宾街
大连周水子国际机场官网_周水子国际机场-今日视点
1、大连站8 7公里,大连北站9 4公里机场如果打车到大连火车站比较近,大概30多块钱。2、大连北站要40多但是
RCA皇家艺术学院医疗健康设计 智慧医疗行业敲门砖
huang& 39;yi-Yeeeees,我们是你的设计生涯加油站!-皇家艺术学院(RoyalCollegeofArt,简称:RCA)始建于183
曝乘风2023取消水舞台 网友:水时长也取消吧 世界播资讯
《乘风2023》节目组因广大观众的要求,三公取消水舞台,真好!终于取消了,虽然很有氛围感但真的不安全,姐
全球热门:七丰精工:公司通过参加欧洲、美国及国内紧固件专业展会,积极开发新客户新市场
同花顺金融研究中心5月23日讯,有投资者向七丰精工提问,公司打算如何扩大市场份额? 公司回答表示,尊
诺唯赞(688105)5月23日主力资金净买入673.91万元
截至2023年5月23日收盘,诺唯赞(688105)报收于34 5元,上涨1 32%,换手率1 13%,成交量1 89万手,成交额6567 13万元。
全球今亮点!热!热!热!南方区域用电负荷创今年新高
热!热!热!南方区域用电负荷创今年新高---5月以来,南方区域用电负荷持续走高。5月22日,南方电网最高负荷
佛山南海第十八届校企合作周落幕 激发人才动能_全球最资讯
2023年南海区第十八届校企合作周启动仪式。广东省人力资源管理协会供图中新网广东新闻5月22日电(记者程景伟
潜龙勿用见龙在田什么意思_见龙在田什么意思 环球聚看点
1、“见龙在田”,汉语成语,拼音是xiànlóngzàitián,天象术语,释义为龙出现在田间。2、出自《易经·乾
全新CT6领衔 凯迪拉克多款新车将5月28日上市
日前,我们从官方渠道获悉,凯迪拉克品牌旗下多款新车将于5月28日晚间宣布正式上市,包括全新CT6、新款XT4
Mysteel解读:看数据说废钢—小刀磨价风险在 废钢难改弱运行 全球热消息
上周夜盘黑色系除铁矿外集体下跌,期螺尾盘回落继续向下探底,SG却在此刻突宣上调30元 吨,江苏其余钢厂跟
性能再进阶!华硕灵耀X 双屏Pro 2023图赏 全球即时
从2019年发布的灵耀X2Pro,到2020年发布的初代亲民价位的灵耀X2Duo双屏笔记本诞生,再到今年性能拥有惊人提
贝泰妮(300957):5月22日北向资金增持43.02万股
5月22日北向资金增持43 02万股贝泰妮。近5个交易日中,获北向资金增持的有3天,累计净增持103 6万股。近20
焦点信息:word文档复选框怎么设置(word文档复选框怎么设置打勾手机)
WPS在制作表格的时候出于便于打印印出来便于勾选,或者在录入数据的时候需要勾选,就会在制作的表格中添加