AWS 推出新一代“语音到语音”模型 Amazon Nova 2 Sonic

Nova 2 Sonic 在前代基础上进行了全面升级,增强了模型的智能和主体能力,扩大了语言支持范围,并新增了多项功能。它提供了更富有表现力的声音、更自然的轮流对话机制,能无缝处理用户打断,并在多项关键评估基准上表现优异。新模型还提高了语音理解准确性,新增了葡萄牙语和印地语支持,并引入了“多语种声音”功能(Polyglot voices),能在一场对话中流畅地进行语言切换。


文:Danilo Poccia / AWS

今天,我们宣布 Amazon Nova 2 Sonic 正式投入商用。这是一个语音到语音的基础模型,能为您的应用程序带来自然、实时的语音对话体验。该模型为开发者构建语音应用程序提供了业界领先的对话质量、定价,以及一流的语音理解能力。

十多年来,Amazon 一直是语音技术领域的领导者。今年早些时候,我们推出了第一代 Nova Sonic,解决了创建真正流畅语音互动的根本挑战——即保留声学语境,使语音响应不仅能适应用户“说了什么”,还能适应用户“怎么说的”。有了 Nova 2 Sonic,我们在这一基础上进一步发展,让模型能力更强、更易于使用。我们改进了模型的智能和主体能力,扩大了语言支持,并增加了一系列新功能,以提供更直观、更像人类的语音互动。

Nova 2 Sonic 提供了富有表现力的声音,在每种支持的语言中都有具有原生表现力的男声和女声。它实现了自然的轮流对话,能无缝处理用户的打断。人类偏好评估显示,在整体收听体验方面,听众始终更青睐 Nova 2 Sonic 的输出,而非其他领先模型。

声音/音色模型胜率 (%)
美式英语 女性GPT 实时版(25 年 8 月)51.7
美式英语 女性Gemini 2.5 Flash 实时 API56.3
美式英语 男性GPT 实时版(25 年 8 月)53.9
美式英语 男性Gemini 2.5 Flash 实时 API60.0
西班牙语 女性GPT 实时版(25 年 8 月)60.3
西班牙语 女性Gemini 2.5 Flash 实时 API62.8
西班牙语 男性GPT 实时版(25 年 8 月)68.4
西班牙语 男性Gemini 2.5 Flash 实时 API70.3
法语 女性GPT 实时版(25 年 8 月)51.6
法语 女性Gemini 2.5 Flash 实时 API57.8
法语 男性GPT 实时版(25 年 8 月)54.7
法语 男性Gemini 2.5 Flash 实时 API61.9
德语 女性GPT 实时版(25 年 8 月)49.8
德语 女性Gemini 2.5 Flash 实时 API57.3
德语 男性GPT 实时版(25 年 8 月)50.5
德语 男性Gemini 2.5 Flash 实时 API62.1
意大利语 女性GPT 实时版(25 年 8 月)48.4
意大利语 女性Gemini 2.5 Flash 实时 API72.1
意大利语 男性GPT 实时版(25 年 8 月)54.8
意大利语 男性Gemini 2.5 Flash 实时 API77.9
印地语 女性GPT 实时版(25 年 8 月)40.6
印地语 女性Gemini 2.5 Flash 实时 API57.0
印地语 男性GPT 实时版(25 年 8 月)42.4
印地语 男性Gemini 2.5 Flash 实时 API64.2
葡萄牙语 女性GPT 实时版(25 年 8 月)33.3
葡萄牙语 女性Gemini 2.5 Flash 实时 API40.0
葡萄牙语 男性GPT 实时版(25 年 8 月)26.3
葡萄牙语 男性Gemini 2.5 Flash 实时 API47.5

提升智能和主体能力

Nova 2 Sonic 提供了强大的智能和更可靠的主体行为,这得益于关键评估基准的改进。

Big Bench Audio(评估音频输入推理能力的评估数据集)上,该模型优于其他领先的对话式 AI 模型。它的 BFCL 基准分数突出了更准确、更一致的函数调用能力,而 ComplexFuncBench 的结果则反映了它能更好地处理多步骤、高约束的任务。我们使用 Common Voice 证明了其自动语音识别(ASR)准确性的提高,并使用 Instruction-Following Evaluation (IFEval) 表明了其在遵循详细、结构化指令方面有更高的准确性。

能力Nova
(2 Sonic)
Gemini
(2.5 Flash Live API)
GPT
(Realtime)
ASR 准确率 ↑
语音理解
93.584.191.6
Big Bench 音频↑
语音推理
87.071.083.0
Berkeley 函数调用排行榜↑
任务完成
74.569.480.4
IFBench 提示↑
指令遵循
33.340.433.3
IFBench 指令遵循 ↑
指令遵循
37.541.536.5

改进语音理解能力

Nova 2 Sonic 的底层语音识别能力得到了显著增强。该模型现在能以更高的准确性处理字母数字输入、短语,以及 8KHz 电话语音输入。在处理不同口音和背景噪音时,它也更加稳健,这对于实际部署场景至关重要。

扩展全球覆盖范围:多语种声音

Nova 2 Sonic 最重要的更新之一是扩大了语言支持。除了最初的英语、法语、意大利语、德语和西班牙语之外,Nova 2 Sonic 现在还支持葡萄牙语印地语

除了支持多种语言外,Nova 2 Sonic 还引入了“多语种声音”(polyglot voices),即一个独立的声音可以在同一场对话中切换语言。例如,“Tiffany”的声音现在可以在一次互动中流畅地说出所有支持的语言。这提供了先进的语码转换(code-switching,指在句子中混合使用语言的语言学术语)能力,可以自然地处理混合语言的句子。举例来说,当用户在同一对话中从一个回合切换到下一个回合时,模型能以用户偏好的语言回复。

对于开发者来说,这意味着您可以构建服务全球受众的应用,而无需为每种语言设置单独的语音模型。一个客户支持应用可以处理这样一种对话:它以英语开始,在对话中途切换到西班牙语,同时整个过程保持相同的流程和语音特征。

自然的轮流对话

轮流对话机制通过可配置的语音活动检测敏感度得到了增强。开发者可以根据他们的用例将其设置为高、中或低。高敏感度会优化最快的响应时间,而低敏感度则会给用户更多时间来完成他们的想法。这在教育应用或为具有不同沟通偏好的用户提供对话式 AI 等场景中非常有用。

无缝的跨模态交互

通过跨模态支持(crossmodal support),用户可以在同一会话中切换文本和语音输入。这对于那些用户可能希望通过语音提出一些请求,而通过文本输入其他请求的应用非常有用——例如,通过语音问一个简单问题,但输入一个复杂的地址或技术规格。

这种实现保持了跨模态的语境,因此用户可以从输入一个问题开始对话,接收语音回复,然后继续使用语音输入,而不会丢失当前的讨论线索。这创造了更流畅、更灵活的互动,以适应用户实际的沟通方式。

您现在可以使用跨模态功能,通过文本提示模型在对话开始时说出个性化的欢迎问候语(让模型先说话),或使用代表键盘按键音的文本元数据来导航交互式语音应答(IVR)应用。例如,当使用 Nova 2 Sonic 代替用户拨打外呼电话进行预约或留下语音邮件时。

先进的多主体能力

Nova 2 Sonic 引入了异步工具调用,它改进了语音对话式 AI 处理复杂、多步骤任务的方式。当模型需要调用外部工具或服务时,它不会暂停,而是继续响应新的用户输入,同时工具在后台运行。

实际运作方式如下:用户可能会问“天气怎么样?”,并紧接着问“我任务列表里的下一项是什么?” Nova 2 Sonic 会处理所有这些请求,立即回答第二个问题,然后随着各个工具返回结果,提供天气和任务信息。

正如我们可以在讨论中自然地处理多个并行主题一样,这项能力支持复杂的互动,可以在保持参与度和响应性的同时,管理多个不相关的任务。

增强的电话和平台集成

鉴于许多对话式 AI 应用需要在不同的通信渠道上工作,Nova 2 Sonic 现在可以直接集成领先的电话服务供应商,包括 Amazon ConnectVonageTwilioAudiocodes,以及 LiveKitPipecat 等媒体平台。

这些集成处理了基于电话互动所涉及的复杂技术要求,例如音频编解码器优化、会话生命周期管理、双向输入/输出事件处理,以及电话系统的声学挑战。对于开发者来说,这意味着您可以将由 Nova 2 Sonic 驱动的应用直接部署到现有的呼叫中心基础设施中,或构建新的基于电话的服务,而无需管理底层的电话复杂性。

开始使用 Nova 2 Sonic

Nova 2 Sonic 可通过 Amazon Bedrock 获得,使用的模型 ID 为 amazon.nova-2-sonic-v1:0。如果您已在应用中使用 Nova Sonic,升级到新版本非常简单——只需在现有代码中更新模型 ID,您的应用将立即受益于那些无需额外配置的增强功能。

该模型使用与原始 Nova Sonic 相同的双向流式 API,因此您现有的集成模式和事件处理代码将继续有效。像跨模态输入和可配置的轮流对话等新功能,则可通过您可以逐步采用的额外参数和事件获得。

如需获取多种编程语言的代码示例,请参阅 Amazon Nova Sonic 语音到语音模型示例Amazon Nova Sonic Speech-to-Speech Model Samples)。

须知事项

Amazon Nova 2 Sonic 已在美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(斯德哥尔摩) AWS 区域推出。有关区域可用性和未来路线图,请访问 AWS 按区域划分的功能AWS Capabilities by Region)。

Nova 2 Sonic 保持了与原始 Nova Sonic 相同的业界领先的性价比和低延迟。定价信息可在 Amazon Bedrock 定价页面找到。

该模型支持与其他 Amazon Bedrock 模型相同的强大安全和合规功能,包括传输中和静态时的加密、VPC 终端节点,以及与 AWS 身份和访问管理(IAM)的集成,以实现细粒度的访问控制。

Nova 2 Sonic 内置了安全控制措施,以促进负责任的 AI 使用,其内容审核功能有助于在各种应用中保持适当的输出。

如需了解更多关于 Amazon Nova 2 Sonic 的信息并开始构建应用,请查阅 Amazon Nova 用户指南中的 Nova Sonic 部分,以获取详细的实施指导。