• 400-881-3721
OpenAI语音智能体诞生怼脸实拍语气狂到飞起!API降到每分钟03美分
2025-03-22

  昨天凌晨的直播中■◆■■◆◆,OpenAI给我们现场怼脸实测,展示了一番新的TTS模型实际表现到底怎么样。

  接着,他们又换了另一种VIBE◆◆■:Serene(宁静),输入了下面的合成脚本:

  现在,OpenAI已经开放了免费体验地址,只要输入文字,就可以生成语音◆■◆★,还能选不同的语气。

  对于语音转文本STT模型,OpenAI引入了强化学习(RL)范式,让转录准确度达到了最先进的水平。

  展望未来,OpenAI计划继续投资于提升音频模型的智能性和准确性,并探索允许开发者引入自定义声音的方式◆■◆★■★,从而打造更个性化的体验,同时遵循安全标准◆◆■。

  这些新模型可以通过API来使用,让开发者能创建更智能、更个性化的语音助手。

  gpt-4o-mini-tts (文本转语音):可控性强,用户可以直接对它发号施令◆■★■★,不仅指定说什么,还能教它怎么说

  开发者们有福啦!现在可以对模型 「发号施令」,不仅能告诉模型该说啥◆■◆★,还能教它怎么说。

  在GPT-4o和GPT-4o-mini架构之上■★◆★■■,新的音频模型在专门的以音频为中心的数据集上进行了大量预训练。

  他们会选出3位获奖者■■,可能是因为这款收音机全世界只有三台★★◆◆■,背面有Open AI的logo。

  指标「词错误率」(word error rate,WER)用于衡量语音识别的准确性:WER越低,表示模型越准确。

  这种方法显著提高了精准度,并减少了幻觉,在复杂语音识别场景中具备了极强的竞争力。

  OpenAI在博客中称◆◆■★★■,新的语音模型套件旨在为语音Agent提供强大支持,并已向全球开发者开放◆■★◆★。

  【新智元导读】就在今天凌晨■★★■◆,OpenAI的全新音频模型上线了★★■■!语音智能体的时代正式开启了■★★★!现在可以利用新的语音模型■■◆◆,指导GPT-4o的说话语气:想温柔就温柔★■★◆◆★,让疯狂就疯狂■◆■◆★!而且,定价也很亲民,比上一代语音模型更便宜◆■。

  所以★■,OpenAI让智能助手不仅能理解我们的话,还能用自然的声音回答我们。

  在最近几个月里◆★■,OpenAI一直在努力让文本智能助手变得更聪明★★■◆■、更强大、更有用。

  OpenAI还提供了简单的Demo◆◆★◆★■,点击下展示页面Play按钮,即可体验人性化的机器语音■★◆■◆。

  这些技术进展代表了音频建模领域的突破◆★■,结合创新的方法和实际的增强,提升了语音应用的性能。

  语音转文本的两个全新模型,比起之前又来了一波大升级,比OpenAI原来的Whisper模型更准确◆★■■★★,能更好地理解人类语音◆★■★。

  OpenAI还改进了蒸馏技术◆★◆◆◆★,使得大型音频模型能够将知识有效地转移到更小、更高效的模型中。

  新模型在多个测试中都取得了更低的WER,包括一个包含100多种语言的测试。这表明新模型在更多的语言上都能表现得很好■■★■。

  这也就意味着,以后像客服中心记录电话或者记录会议内容这样的工作★■◆■,都会变得更可靠,更方便★■★★,甚至更便宜◆■!

  此外★■◆,将继续与政策制定者、研究人员、开发者和创作者进行对话■■★,共同探讨合成语音所带来的挑战与机遇。

  同时,也会投资于其他媒体形式——包括视频——以便开发者能够构建多模态的智能体验◆◆■★■■。

  首先,他们的VOICE(音色)选择了Ash,然后在VIBE(大概是情感的意思)中随机出了Mad Scientist(疯狂科学家)■★■■■。

  自从2022年推出第一个音频模型以来★◆■■◆,OpenAI一直在努力让AI变得更聪明、更准确■◆★■■、更可靠。

  现在,开发者可以用这些新的音频模型来创建更准确的语音转文本系统和听起来更自然的文本转语音系统◆◆◆■★★。

  直播中,演示了要在电话上使用Patagonia客服智能体★★◆,需要修改已有智能体的哪些代码★★◆★■◆。

  首次尝试的时候没输出■■■◆★■,不过刷新后很快模型正常输出音频■★,大家可以通过下边视频感受一下模型的效果。

  跟昨天的o1-pro API的天价token相比,语音模型的API真可谓是良心价了。

  谁能想出最有创意的文本转语音使用方式,并分享给Open AI的Twitter账户,就有机会获得特别版收音机。

  如果开发者希望构建低延迟的语音转语音体验★◆,OpenAI建议使用语音转语音模型来构建实时API。

  gpt-4o-transcribe (语音转文本):比原来的Whisper模型更准确,更理解人类说话,错误更少

  现在,开发者还可以让智能助手的语音听起来更人性化,比如听起来像一位温柔的客服人员。这样,智能助手就能更好地为客服、讲故事等不同的场合服务◆★。

  可以听得出,合成的语音质量还是挺高的,基本上没有多少AI味了■■◆,甚至还有一些高级感。

  就像AI版的Siri,可以直接询问最近的订单,智能体听起来就像真的客服一样。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点◆■,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问★◆★■■◆。

  通过采用先进的自我博弈方法◆★,蒸馏数据集成功捕捉了真实的对话动态,模拟了真实的用户与助手的互动。

  这次的语音效果就显得十分平静,给人一种宁静感,就像李白《静夜思》的意境一样■■■◆。

  要知道■◆★◆★,昨天的OpenAI史上最贵API◆★■★★★,输入价格150美元/每百万token,输出价格600美元/每百万token◆★◆■★◆,比DeepSeek-R1要贵上千倍。

  但是,为了让智能助手真正有用,需要让AI能和人更自然、更深入地交流,就像我们和朋友聊天一样■★■★★。

  这种有针对性的方法使得模型能更好地理解语音中的细微差别,从而在音频相关任务中表现出色。

  这些新模型能更好地理解人说话的细节,减少错误,特别是在有口音、很吵或者说话很快的情况下◆★◆■◆。

  OpenAI期待看到开发者利用这些增强的音频能力,打造出创新和创意应用。