TechFoco Logo
Focus on Technology
© 2025 TechFoco. All rights reserved.
GitHub
返回首页

OpenAI发布Voice Engine语音生成模型:提供自然、情感丰富的语音及多语种输出

2024年04月01日•来源: TechFoco

OpenAI 最近公开发布了语音生成模型,名为 Voice Engine。这一模型只需接受文本输入和一个 15 秒长度的音频样本,就能生成十分接近原始说话者声音的自然语音。可以说,Voice Engine 的语音和人类的语音来讲,几乎没有什么区别。

Voice Engine 项目最初在 2022 年底开始开发,最初是作为一款测试性产品,已经提供给了包括 Heygen 在内的一小部分公司使用,通过他们的实际体验反馈,可以逐步优化这款产品的各项功能。这相当于在产品真正上市之前,得到了一次深度的产品调研和测试。

首要功能就是生成自然听起来的语音。通过单个15秒的音频样本,Voice Engine 能够创造出充满情感且真实的语音,极大地提升了合成语音的自然度和真实感。这尤其在需要人与人之间的交流中显示出其吸引力和有效性,因为模拟出的语音能够使人仿佛真正听到了面前的说话者。

其次,Voice Engine 也支持广泛的用途。无论是教育援助、内容翻译,还是提高偏远地区的服务质量,或者是提供给非语言人士的帮助,甚至帮助患者恢复声音,Voice Engine 的应用场景几乎涵盖了多个行业。这为全球各类行业带来了很大的便利。

接下来,Voice Engine 独特的一项功能是,当进行内容翻译时,能够保留原始发言者的本地口音。这意味着在语音翻译完成后,翻译的语音不仅能够流利地表达出内容,而且还能保留下原始语音的特色,让用户尽可能地接近于真实的语境。

最后,Voice Engine 还拥有一个令人印象深刻的特点,那就是多语种支持。它能够生成多种语言的语音输出,以适应全球各地的需求。对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤其重要。无论在何处,所有人都可以使用他们自己的语言来体验 Voice Engine 的智能语音服务。

总的来说,这一新的语音生成模型,无论从自然度、应用广泛性、口音保留,还是多语言支持等方面,都为用户提供了极好的体验。

相关标签

OpenAI语音生成模型Voice Engine