蚂蚁(和我没关系)发布了Ming-UniAudio,能让语音像现在的图像模型那样

蚁工厂 2025-10-04 10:04:23

蚂蚁(和我没关系)发布了Ming-UniAudio,能让语音像现在的图像模型那样,使用自然语言编辑了。

github.com/inclusionAI/Ming-UniAudio

“随着大型语言模型(LLM)的快速发展,基于LLM的语音基础模型在语音理解和生成方面取得了显著的进展。这些进展使得语音语言的理解更加准确和细致,同时也为人机互动提供了更加流畅和自然的语音输出。从语音表示的角度来看,目前大多数现有的语音LLM要么将理解和生成任务的表示分开,要么采用离散表示。前者无法进行语音编辑,而后者由于量化问题会导致语音细节的丢失。在语音任务方面,目前还没有单一模型能够通过自由形式的指令对输入语音进行语义和声学编辑。这种多轮编辑能力已经在图像领域得到了很好的展示。为了解决理解和生成之间表示不一致的问题,我们提出了一种统一语音理解和生成任务的连续音频标记器。此外,我们还引入了一种新的能力——自由形式的语音编辑,能够进行细粒度且高保真的语音操控。”

0 阅读:2
蚁工厂

蚁工厂

感谢大家的关注