AvatarAI 是一套开源的实时 AI 数字人平台,只需上传一张照片和 5 秒语音,就能克隆声音并与任意面孔实时对话。系统集成 Whisper 语音识别、Claude/GPT-4/Llama 3 多模型对话、XTTS v2 零样本克隆及 MuseTalk 唇同步视频生成,提供完整的端到端对话流与 WebSocket 流式传输。
平台支持本地运行或一键部署至 AWS GPU 实例,具备 JWT 鉴权、会话持久化、情感标签与 18 种语言支持,适合构建虚拟主播、在线客服或数字人应用。
GitHub:github.com/PunithVT/ai-avatar-system
主要功能:- 零样本语音克隆,仅需 5 秒音频即可生成个性化声音;- 实时唇同步视频,MuseTalk 实现 GPU 下 30 FPS 流畅播放;- 多 LLM 后端切换,支持 Claude、GPT-4o、本地 Llama 3;- 句子级流式处理,首句视频块边生成边播放;- Web、Windows、macOS 多端适配,通过 Docker Compose 一键启动。
AI创造营人工智能
