Rohan Doshi · 2026-01-28

Gemini 3 Flash推出Agentic Vision:让AI学会主动看图

摘要

Google为Gemini 3 Flash引入Agentic Vision功能,将图像理解从静态处理转变为主动调查过程。通过Think-Act-Observe循环模型,结合代码执行能力,AI可以逐步裁剪、旋转和标注图像以捕捉细节。该技术在大多数视觉基准测试中实现5-10%的质量提升,已在PlanCheckSolver等平台验证其实用价值。

内容框架与概述

传统AI模型处理图像时采用静态单次扫描方式,容易遗漏细微细节。Agentic Vision通过引入Think-Act-Observe循环机制,让模型能够主动制定多步骤计划、执行Python代码来操作和分析图像、观察转换后的结果并生成最终响应。这种主动调查方式使视觉理解过程更加精确和可靠。

该技术已在多个实际场景中展示价值。PlanCheckSolver通过迭代裁剪高分辨率建筑图纸进行细粒度检查,准确率提升5%。在图像标注场景中,模型可以直接在画布上绘制边界框和标签来辅助计数任务,避免视觉错误。对于复杂数据可视化,Agentic Vision能够解析高密度表格并执行Python代码生成专业图表,用确定性计算替代概率性猜测。

Agentic Vision目前通过Gemini API在Google AI Studio和Vertex AI提供,并逐步在Gemini应用中推出。未来计划扩展更多隐式代码驱动行为,使旋转图像和视觉数学等功能无需显式提示即可自动触发。Google还计划引入更多工具如网页搜索和反向图像搜索,并将该能力扩展到更多模型规格。

核心概念及解读

Agentic Vision:将图像理解从静态处理转变为主动调查过程的AI能力,通过多步骤交互实现更精准的视觉分析。

Think-Act-Observe循环:Agentic Vision的核心工作流程,包括分析问题并制定计划、生成和执行代码操作图像、观察转换结果以优化响应。

代码执行:Agentic Vision的首个支持工具,允许模型生成Python代码来裁剪、旋转、标注图像或执行计算,在多数视觉基准测试中带来5-10%质量提升。


原文信息

字段内容
原文Introducing Agentic Vision in Gemini 3 Flash
作者Rohan Doshi
发表日期2026-01-28

此摘要卡片由 AI 自动生成