OpenAI推出新一代语音模型，助力AI语音交互更精准高效

OpenAI 于 3 月 20 日宣布推出全新的语音转文本 (speech-to-text) 和文本转语音 (text-to-speech) 模型，标志着其在人工智能语音技术领域的又一次重要突破。这次发布不仅预示着人工智能语音技术的商业化应用将加速，更凸显了 OpenAI 在打造更精确、可定制语音交互系统解决方案方面的决心。分析认为，此次更新有望大幅提升语音处理的效率和质量，赋予开发者更强大的工具。

在语音转文本方面，OpenAI 推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 两款模型。官方数据显示，相较于之前的 Whisper 系列，这两款模型在单词错误率 (WER)、语言识别精度以及整体准确性上均有显著提升。具体而言，它们支持超过 100 种语言，并利用强化学习和高质量、多样化的音频数据集进行深度训练，从而能够更精准地捕捉语音中的细微特征，有效降低误识别率。特别值得一提的是，即使在嘈杂环境、面对不同口音和语速变化时，这两款模型也能保持更稳定的性能。这种提升对于需要处理复杂语音数据的应用场景至关重要。

OpenAI推出新一代语音模型，助力AI语音交互更精准高效

这两款新模型的发布，无疑为开发者提供了更强大、更灵活的工具，使他们能够构建出更加精准、适应性更强的语音交互系统，以满足不同场景下的需求。无论是智能客服、智能家居，甚至是需要高度可靠语音识别的自动驾驶领域，都将因此受益。这种技术的进步将直接推动相关应用的智能化水平，并带来更流畅自然的用户体验。

在文本转语音方面，OpenAI 推出了创新的 gpt-4o-mini-tts 模型。该模型允许开发者通过简单的指令，灵活控制语音的风格和语调，例如 “模拟耐心客服” 或 “生动故事叙述”。这种可定制的语音风格使得 gpt-4o-mini-tts 在客户服务领域拥有巨大的潜力，能够合成更富同理心的语音，从而显著提升用户体验。除了客服领域，它也为创意内容制作带来了无限可能，例如有声书录制、游戏角色配音等。这种灵活性和创造性无疑将吸引更多开发者和内容创作者。

OpenAI推出新一代语音模型，助力AI语音交互更精准高效

为了帮助开发者更好地了解和使用这些新模型，OpenAI 公布了详细的费用说明。 gpt-4o-transcribe 模型在处理音频输入时，每 100 万 tokens 的费用为 6 美元，文本输入和输出的费用分别为 2.5 美元和 10 美元，每分钟的成本为 0.6 美分。相对而言，gpt-4o-mini-transcribe 模型的费用更为亲民，音频输入、文本输入和输出的费用分别为 3 美元、1.25 美元和 5 美元，每分钟的成本仅为 0.3 美分。 gpt-4o-mini-tts 模型则按输入和输出量分别计费，每 100 万 tokens 的输入费用为 0.6 美元，输出费用为 12 美元，每分钟的成本为 1.5 美分。通过提供清晰透明的定价，OpenAI 有助于开发者评估成本效益，并选择最适合自身需求的模型。

总而言之，OpenAI 本次推出的新模型，不仅展示了其在人工智能技术领域的深厚实力和持续创新能力，也为整个语音技术行业树立了新的标杆。随着这些模型的不断优化和推广，人工智能语音技术无疑将在更多领域发挥关键作用，从而推动社会整体进步和产业的蓬勃发展。这次的技术升级，有望成为推动人工智能应用普及的重要力量。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

OpenAI推出新一代语音模型，助力AI语音交互更精准高效

相关推荐

发表回复