面壁智能与清华大学联合推出高拟真语音生成模型 VoxCPM,支持零样本声音克隆功能。该模型以 0.5B 参数实现行业领先的自然度与音色相似度,仅需极少数据即可生成用户独特声音。VoxCPM 在 Seed-TTS-EVAL 评测中词错误率低且音色还原精准,单张 NVIDIA RTX4090 显卡即可满足实时交互需求(RTF≈0.17)。模型基于扩散自回归架构,智能适配文本内容生成真人级语音,开源发布于 GitHub 和 Hugging Face 平台,并提供线上体验入口。[[来源:https://huggingface.co/openbmb/VoxCPM-0.5B]]
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容