语音交互迎来革命：新一代音频模型上线，赋予人工智能“情感”与“人格”

随着人工智能技术的飞速演进，语音交互的边界正在被重新定义。近日，新一代音频模型通过应用程序接口正式面向开发者开放，这标志着语音合成技术从单纯的“文本转语音”迈向了“情感化表达”的新纪元。

此次更新最引人注目的突破在于，开发者首次获得了对语音语调、情绪及特定人格特征的精细化控制能力。通过简单的指令，开发者可以引导模型以特定的方式进行对话。例如，开发者可以要求模型“像一位充满同理心的客服人员那样说话”。这种基于自然语言指令的控制方式，为语音智能体的定制化开辟了全新的维度。

这种技术的进步，意味着语音交互将不再局限于冰冷的机械音，而是能够根据应用场景，模拟出具有情感深度和专业素养的人格化声音。对于构建下一代智能客服、虚拟助手及沉浸式交互体验而言，这无疑是一次重大的技术赋能。

🔗 来源：https://openai.com/index/introducing-our-next-generation-audio-models

用户反馈