4月30日,xAI正式发布Grok自定义语音和语音库功能。用户仅需在xAI控制台录制约一分钟自然语音,即可在不到两分钟内获得个人声音克隆模型,并立即应用于Grok文本转语音(TTS)和Voice Agent API。
该功能采用严格的安全验证流程,用户需先朗读验证短语,由语音转文本引擎实时匹配确认身份,再通过说话人嵌入技术比对录音一致性,确保只有本人才能创建自己的声音模型,无法克隆预录音频或他人声音,有效防止滥用。
自定义语音为多种应用场景带来便利,包括为品牌客服代理赋予一致且可识别的专属声音、让内容创作者用本人声音大规模旁白视频和播客、为失声人士保留个人声音特征,以及支持多语言团队将演讲自然呈现于英语、西班牙语、法语、德语、中文、日语等多种语言。同时,它还适用于游戏角色配音、播客和有声书制作,无需反复进入录音室。
全新语音库集成于xAI控制台,用户可在同一页面浏览、预览和管理所有自定义语音及超过80种内置声音(覆盖28种语言)。自定义语音完全继承Grok TTS的各项能力,包括语音标签、多语言输出和流式传输,且使用Text to Speech或Voice Agent API时不收取额外费用。
xAI表示,此次更新大幅降低个性化语音的使用门槛,有望推动AI语音技术在客服、内容创作、娱乐和无障碍领域实现更多创新。目前开发者已可通过xAI控制台直接体验该功能。
