Rohan Doshi · 2026-01-28

Gemini 3 Flash推出Agentic Vision：让AI学会主动看图

摘要

Google为Gemini 3 Flash引入Agentic Vision功能，将图像理解从静态处理转变为主动调查过程。通过Think-Act-Observe循环模型，结合代码执行能力，AI可以逐步裁剪、旋转和标注图像以捕捉细节。该技术在大多数视觉基准测试中实现5-10%的质量提升，已在PlanCheckSolver等平台验证其实用价值。

内容框架与概述

传统AI模型处理图像时采用静态单次扫描方式，容易遗漏细微细节。Agentic Vision通过引入Think-Act-Observe循环机制，让模型能够主动制定多步骤计划、执行Python代码来操作和分析图像、观察转换后的结果并生成最终响应。这种主动调查方式使视觉理解过程更加精确和可靠。

该技术已在多个实际场景中展示价值。PlanCheckSolver通过迭代裁剪高分辨率建筑图纸进行细粒度检查，准确率提升5%。在图像标注场景中，模型可以直接在画布上绘制边界框和标签来辅助计数任务，避免视觉错误。对于复杂数据可视化，Agentic Vision能够解析高密度表格并执行Python代码生成专业图表，用确定性计算替代概率性猜测。

Agentic Vision目前通过Gemini API在Google AI Studio和Vertex AI提供，并逐步在Gemini应用中推出。未来计划扩展更多隐式代码驱动行为，使旋转图像和视觉数学等功能无需显式提示即可自动触发。Google还计划引入更多工具如网页搜索和反向图像搜索，并将该能力扩展到更多模型规格。