字节跳动发布端到端同声传译模型
7 月 24 日,字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0,这是首个延迟和准确率接近人类水平的产品级中英语音同传系统。该模型基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样“边听边说”。其翻译准确率在多人会议场景中超过 70%,单人演讲场景中超过 80%;翻译延迟低至 2-3 秒,较传统系统降低超 60%。此外,该模型还支持零样本声音复刻,能用说话人的音色特质实时“说出”外语,提升交流的自然度。Seed LiveInterpret 2.0 技术报告已公布,基于火山引擎对外开放,Ola Friend 耳机也将在 8 月底接入该模型。
原创文章,作者:网站编辑,如若转载,请注明出处:https://www.devcn.xin/1208.html