Mistral AI · 2026-02-04

Mistral 发布 Voxtral Transcribe 2：极速语音转文字新标杆

摘要

Mistral AI 推出新一代语音转文字模型家族 Voxtral Transcribe 2，包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时场景的 Voxtral Realtime。两款模型在转录精度、说话人分离和多语言支持方面均达到业界领先水平，同时以极低成本和超低延迟（最低 200ms 以下）开辟了语音应用新可能。Voxtral Realtime 以 Apache 2.0 开源发布。

内容框架与概述

文章首先介绍了 Voxtral Transcribe 2 的整体定位：一个包含批量转录与实时转录双模型的语音识别家族，同步上线了 Mistral Studio 音频试验场供用户即时体验。核心卖点在于精准的说话人分离、实时转录能力以及行业最优的性价比。

技术层面，文章分别阐述了两款模型的特性。Voxtral Realtime 采用原生流式架构而非传统分块处理方式，延迟可配置至 200ms 以下，参数量仅 4B，适合边缘部署。Voxtral Mini Transcribe V2 在 FLEURS 基准上词错率约 4%，价格仅 0.003 美元/分钟，在精度上超越 GPT-4o mini Transcribe、Gemini 2.5 Flash 等竞品，处理速度约为 ElevenLabs Scribe v2 的三倍。

企业级功能方面，V2 提供说话人分离、上下文偏置（可输入专有名词引导识别）、词级时间戳、噪声鲁棒性及最长 3 小时音频支持。文章最后列举了会议智能、语音助手、呼叫中心、媒体字幕和合规审计等典型应用场景，并强调两款模型均支持 GDPR 和 HIPAA 合规部署。

核心概念及解读

Voxtral Realtime：专为低延迟场景设计的流式语音转文字模型，延迟可低至 200ms 以下，以 Apache 2.0 开源，4B 参数量可在边缘设备运行。

说话人分离（Speaker Diarization）：自动识别并标注不同说话人及其发言时间段，适用于会议记录和多方通话场景，在英语和多语言基准中均达到最低错误率。

上下文偏置（Context Biasing）：允许用户提供最多 100 个词汇或短语引导模型正确识别专有名词和行业术语，有效降低专业场景下的误识率。

流式架构（Streaming Architecture）：区别于将离线模型分块适配的传统方案，Voxtral Realtime 原生逐帧处理音频流，从根本上降低转录延迟。

性价比标杆：Voxtral Mini Transcribe V2 以每分钟 0.003 美元的价格实现约 4% 词错率，在精度和成本两个维度同时领先主流竞品。

原文信息

字段	内容
原文	Voxtral transcribes at the speed of sound.
作者	Mistral AI
发表日期	2026-02-04

此摘要卡片由 AI 自动生成

‹

我的空地被人冒名出售了三次：一场产权欺诈实录

Fred · 2026-02-04

华盛顿邮报大裁员前执行编辑批最黑暗日子

Jeremy Barr · 2026-02-04

›

Mistral 发布 Voxtral Transcribe 2：极速语音转文字新标杆

摘要

内容框架与概述

核心概念及解读

原文信息

目录