小米宣布开源声音理解大模型 MiDashengLM-7B

小米宣布开源声音理解大模型 MiDashengLM-7B

8月4日消息,小米正式发布并开源声音理解大模型MiDashengLM-7B,该模型是小米“人车家全生态”战略的关键技术组件。MiDashengLM通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

基于MiDashengLM的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈。基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器构建,通过通用音频描述训练策略,实现对语音、环境声音和音乐的统一理解。训练数据100%来自公开数据集,涵盖五大类110万小时资源,以Apache License 2.0协议发布,支持学术和商业应用。(快科技)

原创文章,作者:网站编辑,如若转载,请注明出处:https://www.devcn.xin/1520.html

(0)
网站编辑的头像网站编辑
上一篇 21小时前
下一篇 21小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注