Mistral AI · 2026-02-04

Mistral 发布 Voxtral Transcribe 2:极速语音转文字新标杆

摘要

Mistral AI 推出新一代语音转文字模型家族 Voxtral Transcribe 2,包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时场景的 Voxtral Realtime。两款模型在转录精度、说话人分离和多语言支持方面均达到业界领先水平,同时以极低成本和超低延迟(最低 200ms 以下)开辟了语音应用新可能。Voxtral Realtime 以 Apache 2.0 开源发布。

内容框架与概述

文章首先介绍了 Voxtral Transcribe 2 的整体定位:一个包含批量转录与实时转录双模型的语音识别家族,同步上线了 Mistral Studio 音频试验场供用户即时体验。核心卖点在于精准的说话人分离、实时转录能力以及行业最优的性价比。

技术层面,文章分别阐述了两款模型的特性。Voxtral Realtime 采用原生流式架构而非传统分块处理方式,延迟可配置至 200ms 以下,参数量仅 4B,适合边缘部署。Voxtral Mini Transcribe V2 在 FLEURS 基准上词错率约 4%,价格仅 0.003 美元/分钟,在精度上超越 GPT-4o mini Transcribe、Gemini 2.5 Flash 等竞品,处理速度约为 ElevenLabs Scribe v2 的三倍。

企业级功能方面,V2 提供说话人分离、上下文偏置(可输入专有名词引导识别)、词级时间戳、噪声鲁棒性及最长 3 小时音频支持。文章最后列举了会议智能、语音助手、呼叫中心、媒体字幕和合规审计等典型应用场景,并强调两款模型均支持 GDPR 和 HIPAA 合规部署。

核心概念及解读

Voxtral Realtime:专为低延迟场景设计的流式语音转文字模型,延迟可低至 200ms 以下,以 Apache 2.0 开源,4B 参数量可在边缘设备运行。

说话人分离(Speaker Diarization):自动识别并标注不同说话人及其发言时间段,适用于会议记录和多方通话场景,在英语和多语言基准中均达到最低错误率。

上下文偏置(Context Biasing):允许用户提供最多 100 个词汇或短语引导模型正确识别专有名词和行业术语,有效降低专业场景下的误识率。

流式架构(Streaming Architecture):区别于将离线模型分块适配的传统方案,Voxtral Realtime 原生逐帧处理音频流,从根本上降低转录延迟。

性价比标杆:Voxtral Mini Transcribe V2 以每分钟 0.003 美元的价格实现约 4% 词错率,在精度和成本两个维度同时领先主流竞品。


原文信息

字段内容
原文Voxtral transcribes at the speed of sound.
作者Mistral AI
发表日期2026-02-04

此摘要卡片由 AI 自动生成