Nova 2 Sonic 在前代基础上进行了全面升级,增强了模型的智能和主体能力,扩大了语言支持范围,并新增了多项功能。它提供了更富有表现力的声音、更自然的轮流对话机制,能无缝处理用户打断,并在多项关键评估基准上表现优异。新模型还提高了语音理解准确性,新增了葡萄牙语和印地语支持,并引入了“多语种声音”功能(Polyglot voices),能在一场对话中流畅地进行语言切换。
文:Danilo Poccia / AWS
今天,我们宣布 Amazon Nova 2 Sonic 正式投入商用。这是一个语音到语音的基础模型,能为您的应用程序带来自然、实时的语音对话体验。该模型为开发者构建语音应用程序提供了业界领先的对话质量、定价,以及一流的语音理解能力。
十多年来,Amazon 一直是语音技术领域的领导者。今年早些时候,我们推出了第一代 Nova Sonic,解决了创建真正流畅语音互动的根本挑战——即保留声学语境,使语音响应不仅能适应用户“说了什么”,还能适应用户“怎么说的”。有了 Nova 2 Sonic,我们在这一基础上进一步发展,让模型能力更强、更易于使用。我们改进了模型的智能和主体能力,扩大了语言支持,并增加了一系列新功能,以提供更直观、更像人类的语音互动。
Nova 2 Sonic 提供了富有表现力的声音,在每种支持的语言中都有具有原生表现力的男声和女声。它实现了自然的轮流对话,能无缝处理用户的打断。人类偏好评估显示,在整体收听体验方面,听众始终更青睐 Nova 2 Sonic 的输出,而非其他领先模型。
| 声音/音色 | 模型 | 胜率 (%) |
| 美式英语 女性 | GPT 实时版(25 年 8 月) | 51.7 |
| 美式英语 女性 | Gemini 2.5 Flash 实时 API | 56.3 |
| 美式英语 男性 | GPT 实时版(25 年 8 月) | 53.9 |
| 美式英语 男性 | Gemini 2.5 Flash 实时 API | 60.0 |
| 西班牙语 女性 | GPT 实时版(25 年 8 月) | 60.3 |
| 西班牙语 女性 | Gemini 2.5 Flash 实时 API | 62.8 |
| 西班牙语 男性 | GPT 实时版(25 年 8 月) | 68.4 |
| 西班牙语 男性 | Gemini 2.5 Flash 实时 API | 70.3 |
| 法语 女性 | GPT 实时版(25 年 8 月) | 51.6 |
| 法语 女性 | Gemini 2.5 Flash 实时 API | 57.8 |
| 法语 男性 | GPT 实时版(25 年 8 月) | 54.7 |
| 法语 男性 | Gemini 2.5 Flash 实时 API | 61.9 |
| 德语 女性 | GPT 实时版(25 年 8 月) | 49.8 |
| 德语 女性 | Gemini 2.5 Flash 实时 API | 57.3 |
| 德语 男性 | GPT 实时版(25 年 8 月) | 50.5 |
| 德语 男性 | Gemini 2.5 Flash 实时 API | 62.1 |
| 意大利语 女性 | GPT 实时版(25 年 8 月) | 48.4 |
| 意大利语 女性 | Gemini 2.5 Flash 实时 API | 72.1 |
| 意大利语 男性 | GPT 实时版(25 年 8 月) | 54.8 |
| 意大利语 男性 | Gemini 2.5 Flash 实时 API | 77.9 |
| 印地语 女性 | GPT 实时版(25 年 8 月) | 40.6 |
| 印地语 女性 | Gemini 2.5 Flash 实时 API | 57.0 |
| 印地语 男性 | GPT 实时版(25 年 8 月) | 42.4 |
| 印地语 男性 | Gemini 2.5 Flash 实时 API | 64.2 |
| 葡萄牙语 女性 | GPT 实时版(25 年 8 月) | 33.3 |
| 葡萄牙语 女性 | Gemini 2.5 Flash 实时 API | 40.0 |
| 葡萄牙语 男性 | GPT 实时版(25 年 8 月) | 26.3 |
| 葡萄牙语 男性 | Gemini 2.5 Flash 实时 API | 47.5 |
提升智能和主体能力
Nova 2 Sonic 提供了强大的智能和更可靠的主体行为,这得益于关键评估基准的改进。
在 Big Bench Audio(评估音频输入推理能力的评估数据集)上,该模型优于其他领先的对话式 AI 模型。它的 BFCL 基准分数突出了更准确、更一致的函数调用能力,而 ComplexFuncBench 的结果则反映了它能更好地处理多步骤、高约束的任务。我们使用 Common Voice 证明了其自动语音识别(ASR)准确性的提高,并使用 Instruction-Following Evaluation (IFEval) 表明了其在遵循详细、结构化指令方面有更高的准确性。
| 能力 | Nova (2 Sonic) | Gemini (2.5 Flash Live API) | GPT (Realtime) |
| ASR 准确率 ↑ 语音理解 | 93.5 | 84.1 | 91.6 |
| Big Bench 音频↑ 语音推理 | 87.0 | 71.0 | 83.0 |
| Berkeley 函数调用排行榜↑ 任务完成 | 74.5 | 69.4 | 80.4 |
| IFBench 提示↑ 指令遵循 | 33.3 | 40.4 | 33.3 |
| IFBench 指令遵循 ↑ 指令遵循 | 37.5 | 41.5 | 36.5 |
改进语音理解能力
Nova 2 Sonic 的底层语音识别能力得到了显著增强。该模型现在能以更高的准确性处理字母数字输入、短语,以及 8KHz 电话语音输入。在处理不同口音和背景噪音时,它也更加稳健,这对于实际部署场景至关重要。
扩展全球覆盖范围:多语种声音
Nova 2 Sonic 最重要的更新之一是扩大了语言支持。除了最初的英语、法语、意大利语、德语和西班牙语之外,Nova 2 Sonic 现在还支持葡萄牙语和印地语。
除了支持多种语言外,Nova 2 Sonic 还引入了“多语种声音”(polyglot voices),即一个独立的声音可以在同一场对话中切换语言。例如,“Tiffany”的声音现在可以在一次互动中流畅地说出所有支持的语言。这提供了先进的语码转换(code-switching,指在句子中混合使用语言的语言学术语)能力,可以自然地处理混合语言的句子。举例来说,当用户在同一对话中从一个回合切换到下一个回合时,模型能以用户偏好的语言回复。
对于开发者来说,这意味着您可以构建服务全球受众的应用,而无需为每种语言设置单独的语音模型。一个客户支持应用可以处理这样一种对话:它以英语开始,在对话中途切换到西班牙语,同时整个过程保持相同的流程和语音特征。
自然的轮流对话
轮流对话机制通过可配置的语音活动检测敏感度得到了增强。开发者可以根据他们的用例将其设置为高、中或低。高敏感度会优化最快的响应时间,而低敏感度则会给用户更多时间来完成他们的想法。这在教育应用或为具有不同沟通偏好的用户提供对话式 AI 等场景中非常有用。
无缝的跨模态交互
通过跨模态支持(crossmodal support),用户可以在同一会话中切换文本和语音输入。这对于那些用户可能希望通过语音提出一些请求,而通过文本输入其他请求的应用非常有用——例如,通过语音问一个简单问题,但输入一个复杂的地址或技术规格。
这种实现保持了跨模态的语境,因此用户可以从输入一个问题开始对话,接收语音回复,然后继续使用语音输入,而不会丢失当前的讨论线索。这创造了更流畅、更灵活的互动,以适应用户实际的沟通方式。
您现在可以使用跨模态功能,通过文本提示模型在对话开始时说出个性化的欢迎问候语(让模型先说话),或使用代表键盘按键音的文本元数据来导航交互式语音应答(IVR)应用。例如,当使用 Nova 2 Sonic 代替用户拨打外呼电话进行预约或留下语音邮件时。
先进的多主体能力
Nova 2 Sonic 引入了异步工具调用,它改进了语音对话式 AI 处理复杂、多步骤任务的方式。当模型需要调用外部工具或服务时,它不会暂停,而是继续响应新的用户输入,同时工具在后台运行。
实际运作方式如下:用户可能会问“天气怎么样?”,并紧接着问“我任务列表里的下一项是什么?” Nova 2 Sonic 会处理所有这些请求,立即回答第二个问题,然后随着各个工具返回结果,提供天气和任务信息。
正如我们可以在讨论中自然地处理多个并行主题一样,这项能力支持复杂的互动,可以在保持参与度和响应性的同时,管理多个不相关的任务。
增强的电话和平台集成
鉴于许多对话式 AI 应用需要在不同的通信渠道上工作,Nova 2 Sonic 现在可以直接集成领先的电话服务供应商,包括 Amazon Connect、Vonage、Twilio 和 Audiocodes,以及 LiveKit 和 Pipecat 等媒体平台。
这些集成处理了基于电话互动所涉及的复杂技术要求,例如音频编解码器优化、会话生命周期管理、双向输入/输出事件处理,以及电话系统的声学挑战。对于开发者来说,这意味着您可以将由 Nova 2 Sonic 驱动的应用直接部署到现有的呼叫中心基础设施中,或构建新的基于电话的服务,而无需管理底层的电话复杂性。
开始使用 Nova 2 Sonic
Nova 2 Sonic 可通过 Amazon Bedrock 获得,使用的模型 ID 为 amazon.nova-2-sonic-v1:0。如果您已在应用中使用 Nova Sonic,升级到新版本非常简单——只需在现有代码中更新模型 ID,您的应用将立即受益于那些无需额外配置的增强功能。
该模型使用与原始 Nova Sonic 相同的双向流式 API,因此您现有的集成模式和事件处理代码将继续有效。像跨模态输入和可配置的轮流对话等新功能,则可通过您可以逐步采用的额外参数和事件获得。
如需获取多种编程语言的代码示例,请参阅 Amazon Nova Sonic 语音到语音模型示例(Amazon Nova Sonic Speech-to-Speech Model Samples)。
须知事项
Amazon Nova 2 Sonic 已在美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、亚太地区(东京)和欧洲(斯德哥尔摩) AWS 区域推出。有关区域可用性和未来路线图,请访问 AWS 按区域划分的功能(AWS Capabilities by Region)。
Nova 2 Sonic 保持了与原始 Nova Sonic 相同的业界领先的性价比和低延迟。定价信息可在 Amazon Bedrock 定价页面找到。
该模型支持与其他 Amazon Bedrock 模型相同的强大安全和合规功能,包括传输中和静态时的加密、VPC 终端节点,以及与 AWS 身份和访问管理(IAM)的集成,以实现细粒度的访问控制。
Nova 2 Sonic 内置了安全控制措施,以促进负责任的 AI 使用,其内容审核功能有助于在各种应用中保持适当的输出。
如需了解更多关于 Amazon Nova 2 Sonic 的信息并开始构建应用,请查阅 Amazon Nova 用户指南中的 Nova Sonic 部分,以获取详细的实施指导。