Latent.Space · 2026-01-30

xAI Grok登顶视频模型榜首

摘要

xAI发布Grok Imagine API,在图像视频生成与编辑领域取得突破性进展,登顶多个性能排行榜。该模型支持15秒视频生成和原生音频,定价仅为4.20美元/分钟,在延迟和性价比方面表现优异。与此同时,Google推出Project Genie 3,主打实时交互式世界生成。开源方面,Kimi K2.5在多项评估中表现突出,Qwen3-ASR发布生产级语音识别模型,Arcee推出400B参数的MoE架构Trinity Large。

内容框架与概述

文章聚焦于xAI的Grok Imagine API发布,该模型在Artificial Analysis的图像和视频生成排行榜上双双夺冠,引发了行业对小型视频模型实验室前景的关注。Grok Imagine的突出优势在于原生音频支持、15秒视频时长以及极具竞争力的定价策略,与Veo和Sora形成鲜明对比。同时,fal平台作为首发合作伙伴,提供了从文本到图像、视频编辑以及3D生成的完整API服务生态。

Google同期推出的Project Genie 3代表了另一种技术路线,专注于可交互的实时世界生成,目前仅向美国AI Ultra订阅用户开放。与Grok的高质量视频生成不同,Genie更强调用户可以通过文本或图像提示创建和探索实时生成的交互式世界,尽管仍存在60秒生成限制和物理效果不够完善等技术约束。

开源模型阵营同样动作频频。Moonshot的Kimi K2.5在VoxelBench和Vision Arena等多个评估平台上获得第一,Kimi Code也已切换至该模型并改为基于token的计费模式。阿里巴巴发布Qwen3-ASR,提供支持52种语言和方言的生产级开源语音识别方案,并获得了vLLM的即时支持。Arcee AI则发布了400B参数的MoE架构Trinity Large,通过稀疏专家选择等技术优化了推理吞吐量。

核心概念及解读

Grok Imagine API:xAI推出的图像视频生成与编辑API,在性能排行榜上登顶,支持原生音频和15秒视频,定价4.20美元/分钟。

Project Genie 3:Google DeepMind的交互式世界生成原型,允许用户通过文本或图像提示创建可实时探索的虚拟世界,强调交互性而非单纯视频生成。

MoE架构:混合专家模型架构,Trinity Large采用400B总参数但仅激活13B的稀疏设计,通过路由策略提升推理效率。

Kimi K2.5:Moonshot AI的开源模型,在VoxelBench和Vision Arena等多项评估中排名第一,被视为第三代架构的延续训练版本。

Qwen3-ASR:阿里巴巴开源的生产级语音识别模型,支持52种语言和最长20分钟的音频处理,采用Apache 2.0协议。


原文信息

字段内容
原文[AINews] SpaceXai Grok Imagine API - the #1 Video Model, Best Pricing and Latency
作者Latent.Space
发表日期2026-01-30

此摘要卡片由 AI 自动生成