小米开源覆盖600多语言的语音克隆TTS模型OmniVoice

okx 5月7日消息,小米AI实验室推出多语言语音克隆TTS模型OmniVoice,采用单一双向Transformer极简架构,支持646种语言语音合成,在中英文场景的合成质量和推理速度优于主流模型。该模型基于约58万小时、50个开源数据集训练,对低资源语种使用动态上采样策略,在24种与102种语言测试中语音相似度和可懂度超越多款商用系统,部分指标接近甚至优于真实语音。OmniVoice支持跨语言语音克隆、自定义音色、带噪参考音频适配、副语言控制和发音纠错,并已在Github和Huggingface等平台开源训练、推理代码及模型权重。