LOADING

热门

Gummy – 通义推出的端到端语音翻译大模型，能实时流式生成结果

AI工具8个月前发布 AI工具

Gummy是什么

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果，支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，将其翻译成目标语言。Gummy模型通过端到端的方式，减少翻译延迟，提高翻译质量，在多个测试集上取得SOTA（State of the Art）的结果。Gummy支持多语言混翻、术语干预与领域提示等商业化落地的能力，能在跨国会议等场景中无需指定源语种，流畅地将各国语言翻译至目标语种。

Gummy的主要功能

多语言支持：Gummy能处理包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，实时翻译成目标语言。
端到端翻译：与传统的级联系统不同，Gummy采用端到端的设计，直接将语音翻译成目标语言，无需依赖中间的文本阶段。
低延迟翻译：Gummy的翻译延迟被降低到0.5秒以内，比人类专家的同传延时还要快。
高质量翻译：在多个业界公认的开源测试集上，Gummy取得SOTA（State of the Art）的翻译质量结果。
流式翻译：Gummy支持随说随翻，即边听边翻译，适合实时交流的场景。

Gummy的技术原理

端到端设计：Gummy模型通过端到端架构，将源语言的语音输入映射到目标语言的文本输出，简化开发流程并提高了系统性能。
深度神经网络：基于深度学习技术，尤其是深度神经网络，学习语音到文本的复杂映射关系。
实时流式处理：支持实时语音识别和翻译，实现边听边翻译。
wAIt & predict机制：模型内部采用特殊机制，自动判断翻译时机，优化翻译质量和延迟。

Gummy的项目地址

项目官网：tongyi.aliyun.com，目前语音翻译大模型Gummy部分功能已上线通义APP可下载体验。

Gummy的应用场景

实时语音翻译：Gummy模型能实时翻译会议中的发言，为国际会议、多语言谈判等提供同声传译服务。
教育和培训：在教育领域，Gummy辅助语言学习，提供多语言教学内容的实时翻译，帮助学生和教师跨越语言障碍。
旅游和导航：为旅行者提供实时语音翻译，帮助他们与不同语言的当地人交流，或在导航时提供多语言指引。
客户服务：在客户服务领域，Gummy作为多语言客服助手，提供快速准确的语言支持，提升客户满意度。
医疗咨询：在医疗领域，Gummy提供多语言的医疗咨询翻译服务，帮助医生和患者之间的沟通。

AI工具 # # AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ChatTTSPlus – 开源文本转语音工具，ChatTTS扩展版支持语音克隆

ChatTTSPlus – 开源文本转语音工具，ChatTTS扩展版支持语音克隆

AI项目框架 #

6个月前

020

StreamMultiDiffusion – 实时生成和编辑图像的交互式框架

StreamMultiDiffusion – 实时生成和编辑图像的交互式框架

8个月前

0110

arcads – AI视频广告制作平台，根据文本内容、选择AI演员生成视频广告

arcads – AI视频广告制作平台，根据文本内容、选择AI演员生成视频广告

AI工具 # # AI

6个月前

020

Insighto.ai – AI通信平台，AI代理能自动接听和拨打电话处理消息

Insighto.ai – AI通信平台，AI代理能自动接听和拨打电话处理消息

AI工具 # # AI

8个月前

070

暂无评论

暂无评论...