Meta AI 推出全语言自动语音识别（ASR），推动超过1600种语言的自动语音识别技术发展

Mpost Media Group

2025-11-11 13:45:37

简要介绍

Meta AI推出了Omnilingual自动语音识别（ASR）系统，支持超过1600种语言的语音识别，并发布了开源模型和涵盖350种欠缺资源语言的语料库。

科技公司Meta的研究部门Meta AI专注于人工智能和增强现实，宣布发布Meta Omnilingual自动语音识别（ASR）系统。

该系列模型能够实现超过1600种语言的自动语音识别，性能达到前所未有的高水平。此外，Meta AI还开源了Omnilingual wav2vec 2.0，这是一个具有70亿参数的自监督、多语种语音表示模型，旨在支持多种下游语音任务。

除了这些工具外，组织还发布了Omnilingual ASR语料库，这是一个由全球合作伙伴共同开发的、包含350种欠缺资源语言的转录语音的精选集。

近年来，自动语音识别技术取得了显著进步，在许多广泛使用的语言中达到了几乎完美的准确率。然而，扩展到资源较少的语言仍然具有挑战性，因为现有AI架构对数据和计算资源的需求很高。Omnilingual ASR系统通过将wav2vec 2.0语音编码器扩展到70亿参数，从原始未转录语音中创建丰富的多语种表示，解决了这一限制。两种解码器变体将这些表示映射为字符标记：一种使用连接时序分类（CTC），另一种采用类似大型语言模型的变换器方法。

这种受大型语言模型启发的ASR方法在超过1600种语言中实现了最先进的性能，其中78%的语言字符错误率低于10，并引入了一种更灵活的添加新语言的方法。

与传统系统需要专家微调不同，Omnilingual ASR只需少量配对的音频-文本样本即可支持之前未支持的语言，实现转录，无需大量数据、专业技能或高端计算。虽然零样本（zero-shot）结果尚未达到完全训练系统的水平，但这种方法为将欠缺资源的语言引入数字生态系统提供了可扩展的途径。

Meta AI通过Omnilingual ASR套件和语料库推动语音识别技术

研究部门发布了一套全面的模型和数据集，旨在推动任何语言的语音技术发展。在FAIR之前的研究基础上，Omnilingual ASR包括两种解码器变体，从适用于低功耗设备的300M轻量级模型，到提供高精度、多应用场景的70亿参数模型。通用的wav2vec 2.0语音基础模型也提供多种规模，支持超出ASR的多种语音相关任务。所有模型均采用Apache 2.0许可证发布，数据集则采用CC-BY协议，方便研究人员、开发者和语言倡导者在PyTorch生态系统中的fairseq2开源框架下，进行定制和扩展语音解决方案。

Omnilingual ASR在史上最大、最具语言多样性的ASR语料库之一上进行训练，结合了公开数据集和社区采集的录音。为了支持数字资源有限的语言，Meta AI与本地组织合作，招募并补偿偏远或资料不足地区的母语者，创建了Omnilingual ASR语料库，这是迄今为止最大规模的超低资源自发语音识别数据集。通过语言技术合作伙伴计划（Language Technology Partner Program），还汇聚了全球的语言学家、研究人员和语言社区，包括与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices的合作。这些努力提供了深厚的语言学洞察和文化背景，确保技术满足本地需求，同时赋能全球多样化的语言社区。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

Mpost Media Group

热门话题查看更多
#美联储降息预测
5.08万热度
#广场发帖领$50
4.76万热度
#加密市场反弹
27.38万热度
#SUIETF正式上线
1.21万热度
#比特币活跃度走高
1.2万热度

热门 Gate Fun查看更多

1
WBPWhale Breaker Protocol
市值:$3634.42持有人数:2
0.14%
2
earthearth亦扬亦扬
市值:$3634.02持有人数:2
0.04%
3
stalinstalin
市值:$3855.6持有人数:2
1.24%
4
GPANDAGPANDA
市值:$4100.72持有人数:3
2.76%
5
GlooGloo
市值:$3568.96持有人数:1
0.00%