AWS 推出新一代“语音到语音”模型 Amazon Nova 2 Sonic

Nova 2 Sonic 在前代基础上进行了全面升级，增强了模型的智能和主体能力，扩大了语言支持范围，并新增了多项功能。它提供了更富有表现力的声音、更自然的轮流对话机制，能无缝处理用户打断，并在多项关键评估基准上表现优异。新模型还提高了语音理解准确性，新增了葡萄牙语和印地语支持，并引入了“多语种声音”功能（Polyglot voices），能在一场对话中流畅地进行语言切换。

文：Danilo Poccia / AWS

今天，我们宣布 Amazon Nova 2 Sonic 正式投入商用。这是一个语音到语音的基础模型，能为您的应用程序带来自然、实时的语音对话体验。该模型为开发者构建语音应用程序提供了业界领先的对话质量、定价，以及一流的语音理解能力。

十多年来，Amazon 一直是语音技术领域的领导者。今年早些时候，我们推出了第一代 Nova Sonic，解决了创建真正流畅语音互动的根本挑战——即保留声学语境，使语音响应不仅能适应用户“说了什么”，还能适应用户“怎么说的”。有了 Nova 2 Sonic，我们在这一基础上进一步发展，让模型能力更强、更易于使用。我们改进了模型的智能和主体能力，扩大了语言支持，并增加了一系列新功能，以提供更直观、更像人类的语音互动。

Nova 2 Sonic 提供了富有表现力的声音，在每种支持的语言中都有具有原生表现力的男声和女声。它实现了自然的轮流对话，能无缝处理用户的打断。人类偏好评估显示，在整体收听体验方面，听众始终更青睐 Nova 2 Sonic 的输出，而非其他领先模型。

声音/音色	模型	胜率 (%)
美式英语女性	GPT 实时版（25 年 8 月）	51.7
美式英语女性	Gemini 2.5 Flash 实时 API	56.3
美式英语男性	GPT 实时版（25 年 8 月）	53.9
美式英语男性	Gemini 2.5 Flash 实时 API	60.0
西班牙语女性	GPT 实时版（25 年 8 月）	60.3
西班牙语女性	Gemini 2.5 Flash 实时 API	62.8
西班牙语男性	GPT 实时版（25 年 8 月）	68.4
西班牙语男性	Gemini 2.5 Flash 实时 API	70.3
法语女性	GPT 实时版（25 年 8 月）	51.6
法语女性	Gemini 2.5 Flash 实时 API	57.8
法语男性	GPT 实时版（25 年 8 月）	54.7
法语男性	Gemini 2.5 Flash 实时 API	61.9
德语女性	GPT 实时版（25 年 8 月）	49.8
德语女性	Gemini 2.5 Flash 实时 API	57.3
德语男性	GPT 实时版（25 年 8 月）	50.5
德语男性	Gemini 2.5 Flash 实时 API	62.1
意大利语女性	GPT 实时版（25 年 8 月）	48.4
意大利语女性	Gemini 2.5 Flash 实时 API	72.1
意大利语男性	GPT 实时版（25 年 8 月）	54.8
意大利语男性	Gemini 2.5 Flash 实时 API	77.9
印地语女性	GPT 实时版（25 年 8 月）	40.6
印地语女性	Gemini 2.5 Flash 实时 API	57.0
印地语男性	GPT 实时版（25 年 8 月）	42.4
印地语男性	Gemini 2.5 Flash 实时 API	64.2
葡萄牙语女性	GPT 实时版（25 年 8 月）	33.3
葡萄牙语女性	Gemini 2.5 Flash 实时 API	40.0
葡萄牙语男性	GPT 实时版（25 年 8 月）	26.3
葡萄牙语男性	Gemini 2.5 Flash 实时 API	47.5

提升智能和主体能力

Nova 2 Sonic 提供了强大的智能和更可靠的主体行为，这得益于关键评估基准的改进。

在 Big Bench Audio（评估音频输入推理能力的评估数据集）上，该模型优于其他领先的对话式 AI 模型。它的 BFCL 基准分数突出了更准确、更一致的函数调用能力，而 ComplexFuncBench 的结果则反映了它能更好地处理多步骤、高约束的任务。我们使用 Common Voice 证明了其自动语音识别（ASR）准确性的提高，并使用 Instruction-Following Evaluation (IFEval) 表明了其在遵循详细、结构化指令方面有更高的准确性。

能力	Nova (2 Sonic)	Gemini (2.5 Flash Live API)	GPT (Realtime)
ASR 准确率 ↑ 语音理解	93.5	84.1	91.6
Big Bench 音频↑ 语音推理	87.0	71.0	83.0
Berkeley 函数调用排行榜↑ 任务完成	74.5	69.4	80.4
IFBench 提示↑ 指令遵循	33.3	40.4	33.3
IFBench 指令遵循 ↑ 指令遵循	37.5	41.5	36.5

改进语音理解能力

Nova 2 Sonic 的底层语音识别能力得到了显著增强。该模型现在能以更高的准确性处理字母数字输入、短语，以及 8KHz 电话语音输入。在处理不同口音和背景噪音时，它也更加稳健，这对于实际部署场景至关重要。

扩展全球覆盖范围：多语种声音

Nova 2 Sonic 最重要的更新之一是扩大了语言支持。除了最初的英语、法语、意大利语、德语和西班牙语之外，Nova 2 Sonic 现在还支持葡萄牙语和印地语。

除了支持多种语言外，Nova 2 Sonic 还引入了“多语种声音”（polyglot voices），即一个独立的声音可以在同一场对话中切换语言。例如，“Tiffany”的声音现在可以在一次互动中流畅地说出所有支持的语言。这提供了先进的语码转换（code-switching，指在句子中混合使用语言的语言学术语）能力，可以自然地处理混合语言的句子。举例来说，当用户在同一对话中从一个回合切换到下一个回合时，模型能以用户偏好的语言回复。

对于开发者来说，这意味着您可以构建服务全球受众的应用，而无需为每种语言设置单独的语音模型。一个客户支持应用可以处理这样一种对话：它以英语开始，在对话中途切换到西班牙语，同时整个过程保持相同的流程和语音特征。

自然的轮流对话

轮流对话机制通过可配置的语音活动检测敏感度得到了增强。开发者可以根据他们的用例将其设置为高、中或低。高敏感度会优化最快的响应时间，而低敏感度则会给用户更多时间来完成他们的想法。这在教育应用或为具有不同沟通偏好的用户提供对话式 AI 等场景中非常有用。

无缝的跨模态交互

通过跨模态支持（crossmodal support），用户可以在同一会话中切换文本和语音输入。这对于那些用户可能希望通过语音提出一些请求，而通过文本输入其他请求的应用非常有用——例如，通过语音问一个简单问题，但输入一个复杂的地址或技术规格。

这种实现保持了跨模态的语境，因此用户可以从输入一个问题开始对话，接收语音回复，然后继续使用语音输入，而不会丢失当前的讨论线索。这创造了更流畅、更灵活的互动，以适应用户实际的沟通方式。

您现在可以使用跨模态功能，通过文本提示模型在对话开始时说出个性化的欢迎问候语（让模型先说话），或使用代表键盘按键音的文本元数据来导航交互式语音应答（IVR）应用。例如，当使用 Nova 2 Sonic 代替用户拨打外呼电话进行预约或留下语音邮件时。

先进的多主体能力

Nova 2 Sonic 引入了异步工具调用，它改进了语音对话式 AI 处理复杂、多步骤任务的方式。当模型需要调用外部工具或服务时，它不会暂停，而是继续响应新的用户输入，同时工具在后台运行。

实际运作方式如下：用户可能会问“天气怎么样？”，并紧接着问“我任务列表里的下一项是什么？” Nova 2 Sonic 会处理所有这些请求，立即回答第二个问题，然后随着各个工具返回结果，提供天气和任务信息。

正如我们可以在讨论中自然地处理多个并行主题一样，这项能力支持复杂的互动，可以在保持参与度和响应性的同时，管理多个不相关的任务。

增强的电话和平台集成

鉴于许多对话式 AI 应用需要在不同的通信渠道上工作，Nova 2 Sonic 现在可以直接集成领先的电话服务供应商，包括 Amazon Connect、Vonage、Twilio 和 Audiocodes，以及 LiveKit 和 Pipecat 等媒体平台。

这些集成处理了基于电话互动所涉及的复杂技术要求，例如音频编解码器优化、会话生命周期管理、双向输入/输出事件处理，以及电话系统的声学挑战。对于开发者来说，这意味着您可以将由 Nova 2 Sonic 驱动的应用直接部署到现有的呼叫中心基础设施中，或构建新的基于电话的服务，而无需管理底层的电话复杂性。

开始使用 Nova 2 Sonic

Nova 2 Sonic 可通过 Amazon Bedrock 获得，使用的模型 ID 为 amazon.nova-2-sonic-v1:0。如果您已在应用中使用 Nova Sonic，升级到新版本非常简单——只需在现有代码中更新模型 ID，您的应用将立即受益于那些无需额外配置的增强功能。

该模型使用与原始 Nova Sonic 相同的双向流式 API，因此您现有的集成模式和事件处理代码将继续有效。像跨模态输入和可配置的轮流对话等新功能，则可通过您可以逐步采用的额外参数和事件获得。

如需获取多种编程语言的代码示例，请参阅 Amazon Nova Sonic 语音到语音模型示例（Amazon Nova Sonic Speech-to-Speech Model Samples）。

须知事项

Amazon Nova 2 Sonic 已在美国东部（弗吉尼亚北部）、美国西部（俄勒冈）、亚太地区（东京）和欧洲（斯德哥尔摩） AWS 区域推出。有关区域可用性和未来路线图，请访问 AWS 按区域划分的功能（AWS Capabilities by Region）。

Nova 2 Sonic 保持了与原始 Nova Sonic 相同的业界领先的性价比和低延迟。定价信息可在 Amazon Bedrock 定价页面找到。

该模型支持与其他 Amazon Bedrock 模型相同的强大安全和合规功能，包括传输中和静态时的加密、VPC 终端节点，以及与 AWS 身份和访问管理（IAM）的集成，以实现细粒度的访问控制。

Nova 2 Sonic 内置了安全控制措施，以促进负责任的 AI 使用，其内容审核功能有助于在各种应用中保持适当的输出。

如需了解更多关于 Amazon Nova 2 Sonic 的信息并开始构建应用，请查阅 Amazon Nova 用户指南中的 Nova Sonic 部分，以获取详细的实施指导。