ミニマックス・スピーチ 02

2025-05-16

7 1

https://minimax-ai.github.io/tts_tech_report/

随着人工智能技术的不断演进，个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而，现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行业痛点，ミニマックス・スピーチ 02 作为一款基于 AR 変圧器架构的高质量 TTS 系统被推出，旨在通过其独特的技术创新，为个性化语音合成领域带来新的突破。

该系统宣称具备强大的泛化能力，能够处理多达 32 种语言，并支持不同口音和情感风格的人声合成。其核心亮点在于引入了一种名为“可学习的音色提取器” (learnable speaker encoder) 的机制，并结合了 AR Transformer 模型进行协同训练。这一设计使得 ミニマックス・スピーチ 02 能够实现高效的 Zero-shot 语音克隆，即在无需目标说话人大量训练数据的情况下，仅凭简短的参考音频即可生成具有该说话人音色特征的语音。

性能与市场认可：双榜第一与成本效益

根据公开的基准测试结果，ミニマックス・スピーチ 02 (在榜单中记录为 Speech-02-HD) 在人工分析 Speech Arena 和 Hugging Face TTS Arena 这两个全球性的语音合成竞技场中，均取得了领先于 OpenAI 、イレブンラボ等知名模型的成绩。这些平台通常采用用户盲听打分的 ELO 评级系统，其结果在一定程度上反映了模型在实际听感上的优越性。

除了性能指标，ミニマックス・スピーチ 02 在商业化部署方面也考虑了成本因素。据称，其服务价格相较于 ElevenLabs 的 Flash V2.5 和 Mutilingual V2 产品分别低约 50% 和 75%，这为更广泛的开发者和企业应用提供了更具吸引力的选择。

核心技术架构：可学习音色编码器与 Zero-shot 能力

ミニマックス・スピーチ 02 的技术创新主要围绕其“可学习的音色提取器”展开。该提取器本质上是一个人声编码器 (speaker encoder)，其功能是将任意长度的参考音频片段编码成一个固定大小的条件向量 (speaker embedding)。这个向量捕捉了参考音频中的核心音色特征，用于指导后续的语音合成过程。

该架构的关键特性包括：

高效的 Zero-shot 音色克隆：系统仅需一段参考音频（无需文本转录），便能从中提取音色信息，并将其应用于新的文本内容生成。这种方法侧重于捕捉声音的本质特征，如音色、基频和韵律风格，从而为生成具有高度自然度和表现力的语音提供了基础。输出的语音不仅在音色上与参考音频高度相似，且在发音稳定性上表现优异。
广泛的多语言支持 (32 种)：音色提取器在处理参考音频时，实现了音色特征与语义内容的分离。由于该编码器是“可学习的”，它能够在包含多种语言的大规模数据集上进行训练。这一特性使得 ミニマックス・スピーチ 02 能够内在地支持多达 32 种语言的语音合成，并在跨语言合成任务中保持较好的音色一致性和自然度。
灵活的功能扩展性：音色编码器产生的条件向量具有良好的解耦特性，这为下游应用的扩展提供了便利。目前，已实现的功能包括对合成语音进行灵活的情感控制、根据文本描述生成特定音色（Text-to-Voice, T2V），以及通过少量目标说话人数据进行微调以实现更专业的语音克隆效果 (Professional Voice Cloning, PVC)。

音质提升技术：Flow-VAE 的应用

为了进一步提升生成语音的音质和真实感，ミニマックス・スピーチ 02 引入了 Flow-VAE 技术。传统的变分自编码器 (VAE) 通常假设其潜空间 (latent space) 服从标准高斯分布，这可能限制其对复杂音频特征的表达能力。Flow-VAE 则通过引入流模型 (flow model) 来优化潜空间的分布，允许编码器输出更灵活的正态分布，从而提升编码器的信息表达能力。

具体而言，Flow-VAE 首先将音频波形压缩为比传统梅尔频谱图包含更丰富信息的隐层特征。随后，Flow Matching 模型被用来精确地建模这些隐层特征的分布。通过这种方式，系统在语音合成时能够重建更多声音细节，从而在听感上实现更高的音质保真度和音色相似度。

多维度性能评估

根据其发布的技术报告 (技术报告链接) 及演示案例 (体验链接)，ミニマックス・スピーチ 02 在多个方面展现了其性能：

音色表现多样性：系统能够生成多种风格的语音，包括富有感染力的演讲、轻柔的耳语 (ASMR) 等，展示了较宽的情感和风格覆盖范围。
多语言与跨语言能力：除了对泰语、波兰语、日语等多种语言的直接合成外，还展示了 Zero-shot 跨语言能力，例如使用英文参考音色合成中文或西班牙语内容，同时保持音色的一致性。
文生音 (T2V)：支持通过文本描述（如“沙哑的中年男声，语速中慢，音调低沉”）来生成符合描述特征的语音。

在一项针对多语言 Zero-shot 性能的对比测试中，将 ミニマックス・スピーチ 02 与 ElevenLabs multilingual_V2 模型进行了比较。评估指标包括：

语音相似度 (SIM)：通过计算说话人嵌入 (speaker embedding) 之间的余弦相似度来衡量。结果显示，ミニマックス・スピーチ 02 在所有测试语种的 SIM 指标上均优于对比模型。
字错率 (WER)：使用 Whisper-large-v3 或 Paraformer-ZM 进行语音识别转录后计算。ミニマックス・スピーチ 02 在英语、法语、意大利语、葡萄牙语等主流欧美语言上表现出较高的准确性。报告指出，对比模型在部分亚洲语种（如粤语、泰语、越南语、日语）上的 WER 超过 10%。

这些数据表明 ミニマックス・スピーチ 02 在多语言适应性和音色克隆的准确性方面具有较强的竞争力。

技术应用与前景

ミニマックス・スピーチ 02 的技术进步为个性化内容创作、跨语言交流以及人机交互等领域提供了新的可能性。例如，内容创作者可以利用该技术以较低成本制作多语种、多风格的音频内容。此外，对稀有语种的支持也有助于数字时代语言多样性的保护和传播。

该系统的后续发展方向将聚焦于进一步提升模型的可控性和效率。其在音色克隆、多语言支持和音质方面的综合表现，使其成为当前 TTS 技术领域一个值得关注的进展。

チーフAIシェアリングサークル " ミニマックス・スピーチ 02 投稿日：2025-05-16 URLが古い、またはアクセスできない場合はご連絡ください。

0ブックマークに登録

0表彰される