Universal-1 – AssemblyAI推出的多语种语音识别和转换模型

Universal-1是什么

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型，经过超过1250万小时的多语种音频数据训练，支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务，包括嘈杂背景、不同口音和自然对话等，还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性，能够满足客户对语音数据细微差别的需求，是构建下一代AI产品和服务的强大工具。

Universal-1的主要特点

多语种支持：Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言，并且针对这些语言进行了优化，以提高语音识别的准确性。
高准确率：在不同条件下，如背景噪音、口音多样性、自然对话和语言变化等，Universal-1都能保持出色的语音到文本的转换准确率。
减少幻觉率：与Whisper Large-v3相比， Universal-1将语音数据的幻觉率降低了 30%，即减少了模型在没有声音输入的情况下错误生成文本的情况。
快速响应：Universal-1设计了高效的并行推理能力，能够快速处理长音频文件，提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
精确的时间戳估计：模型能够提供精确到单词级别的时间戳，这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
用户偏好：在用户偏好测试中，用户71%的时间更倾向于Universal-1的输出，表明其在实际使用中更能满足用户的需求。

Universal-1的性能对比

英语语音转文字准确性：Universal-1在11个数据集中的5个数据集中实现了最低的词错误率（WER），与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
非英语语音转文字准确性：在西班牙语、法语和德语的测试中，Universal-1在15个数据集中的5个上WER更低，显示了其在这些语言上的竞争力。
时间戳准确性：Universal-1在时间戳准确性方面，相比于Whisper Large-v3，将预测时间戳在100毫秒内的单词比例提高了25.5%，从67.2%提升到84.3%。
推理效率：在NVIDIA Tesla T4机器上，Universal-1在没有并行化的情况下比更快的whisper后端快3倍，且在64个并行化推理时，仅需21秒即可转录1小时的音频。
幻觉减少：Universal-1相比于Whisper Large-v3，在转录音频时的幻觉率降低了30%。
人类偏好测试：在人类偏好测试中，评估者在60%的情况下更倾向于Universal-1的输出，而Conformer-2只有24%。
声纹分割聚类：Universal-1在声纹分割聚类（Speaker Diarization）准确性方面，相比于Conformer-2，实现了以下改进：
- Diarization Error Rate (DER) 相对减少了7.7%。
- 联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。
- 演讲者数量估计的准确性相对提高了71.3%。

如何使用Universal-1

目前，Universal-1已推出英语和西班牙语版本，德语和法语版本即将推出。后续，AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。

通过Playground试用：最简单的尝试Universal-1的方式是通过AssemblyAI的Playground。在Playground中，用户可以直接上传音频文件或者输入YouTube链接，然后模型会快速生成文字转录。
免费API试用：用户可以免费注册并获取一个API令牌（API token）。注册后，前往AssemblyAI的文档（Docs）或Welcome Colab，这些资源可帮助快速开始使用API。

更多关于Universal-1的信息，详见AssemblyAI的官方技术报告：https://www.assemblyai.com/discover/research/universal-1

Universal-1的应用场景

对话智能平台：能够快速、准确地分析大量客户数据，提供关键的客户声音洞察和分析，无论口音、录音条件或说话人数如何。
AI记事本：生成高度准确、无幻觉的会议记录，为基于大型语言模型的摘要、行动项和其他元数据生成提供基础，包括准确的专有名词、发言者和时间信息。
创作者工具：为最终用户构建AI驱动的视频编辑工作流程，利用多种语言的精确语音转文字输出，低错误率和可靠的单词时间信息。
远程医疗平台：自动化临床记录输入和索赔提交流程，利用准确和忠实的语音转文字输出，包括处方名称和医学诊断等罕见词汇，在对抗性和远场录音条件下也具有高成功率。