AvatarAI 是一套开源的实时 AI 数字人平台，只需上传一张照片和 5 秒

AvatarAI 是一套开源的实时 AI 数字人平台，只需上传一张照片和 5 秒语音，就能克隆声音并与任意面孔实时对话。系统集成 Whisper 语音识别、Claude/GPT-4/Llama 3 多模型对话、XTTS v2 零样本克隆及 MuseTalk 唇同步视频生成，提供完整的端到端对话流与 WebSocket 流式传输。

平台支持本地运行或一键部署至 AWS GPU 实例，具备 JWT 鉴权、会话持久化、情感标签与 18 种语言支持，适合构建虚拟主播、在线客服或数字人应用。

GitHub：github.com/PunithVT/ai-avatar-system

主要功能：- 零样本语音克隆，仅需 5 秒音频即可生成个性化声音；- 实时唇同步视频，MuseTalk 实现 GPU 下 30 FPS 流畅播放；- 多 LLM 后端切换，支持 Claude、GPT-4o、本地 Llama 3；- 句子级流式处理，首句视频块边生成边播放；- Web、Windows、macOS 多端适配，通过 Docker Compose 一键启动。

AI创造营人工智能

泡泡资讯网

AvatarAI 是一套开源的实时 AI 数字人平台，只需上传一张照片和 5 秒

热门分类