蚂蚁（和我没关系）发布了Ming-UniAudio，能让语音像现在的图像模型那样

蚁工厂 2025-10-04 10:04:23

蚂蚁（和我没关系）发布了Ming-UniAudio，能让语音像现在的图像模型那样，使用自然语言编辑了。

github.com/inclusionAI/Ming-UniAudio

“随着大型语言模型（LLM）的快速发展，基于LLM的语音基础模型在语音理解和生成方面取得了显著的进展。这些进展使得语音语言的理解更加准确和细致，同时也为人机互动提供了更加流畅和自然的语音输出。从语音表示的角度来看，目前大多数现有的语音LLM要么将理解和生成任务的表示分开，要么采用离散表示。前者无法进行语音编辑，而后者由于量化问题会导致语音细节的丢失。在语音任务方面，目前还没有单一模型能够通过自由形式的指令对输入语音进行语义和声学编辑。这种多轮编辑能力已经在图像领域得到了很好的展示。为了解决理解和生成之间表示不一致的问题，我们提出了一种统一语音理解和生成任务的连续音频标记器。此外，我们还引入了一种新的能力——自由形式的语音编辑，能够进行细粒度且高保真的语音操控。”

0 阅读：2

感谢大家的关注

作者最新文章

1

cpython项目，也开始为面向LLM Agnet编程做准备啦

2

购置税调整前最后的黄金周咋买车黄金周这种节骨眼，大家都在拼命买车，要是没个挑车的

3

deepseek刚在huggingface上建了 v3.2的坑（还没放模型文件

4

5

高德扫街榜发布全国Top100餐厅不要再说什么北京美食荒漠、杭州美食荒漠了。。

6

huggingface的数据，qwen系列模型的累计下载量已经超过Llama系列

7

发布HunyuanImage 3.0啦，参数规模80B。官方介绍是“首个开源的工

8

?

9

退伍军人的店被退伍军人拍火了 “人间烟火”到底藏在哪儿？不是滤镜，不是打卡，甚至

10

8月份，AI 网页产品数据。公众号郎瀚威 Will 整理。

热门分类

科技TOP

1

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

2

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

3

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

4

全球芯片代工市场，台积电的市场份额是70%，台积电估值1万亿美元，中芯国际的市场

5

这次准备买华为Mate80Pro的，务必选择16GB运存版本的，因为这个版本

6

今晚恐怕没有一个友商笑得出来了，华为Mate80系，配置汇总简直大开眼界。全

7

对小鹏机器人太好奇了，不可能是真人套个皮吧？小鹏好歹是家上市公司专门开个发布会亮

8

最近关于荣耀500系列的爆料越来越全面，如果这些配置是真的就太棒了！数字系列一

9

家人们谁懂啊！荣耀这是要“卷疯”友商啊😱最近手机圈又出大动静啦！荣耀500

10

没有高端的“命”，却有高端的“病”！黑厂Reno15系列，这么拉的处理器，敢定这

科技最新文章

1

大胆预测一下！荣耀500系列的价格应该就这样了吧荣耀500：12

2

华为Mate80即将登场：产业核心龙头！1.北斗通信2.散热3.芯片+显示

3

华为：不装了，摊牌了。事情都已经到这个份上了，要有真家伙早就亮出来了，华为这

4

太流畅了！Mate40系列开始陆续推送鸿蒙4.2.0.192新版本。昨天晚些时间

5

整理了一下11月新机发布会11月24日：荣耀500系列新机发布会11月25日：

6

咋回事？我连预定都没抢到？！昨天还在那儿各种挑槽点呢结果今天华为Mate8

7

mate80终于用上了大R角配上直板平直角边框真的是太帅了，现在各家的直屏用的都

8

这次准备买华为Mate80Pro的，务必选择16GB运存版本的，因为这个版本

9

余承东估计自己也想不到，Mate80还没发布，手机就已经被看光了，甚至都已经“拥

10

华为是真有钱啊，听别的博主老师说11月25号Mate80系列发布会，28号鸿