CMU和DeepMind新方法让视觉语言模型自生成记忆以应对数据不足
摘要
随着AI领域Scaling Law面临高质量数据耗尽的挑战,CMU与Google DeepMind联合提出了一种名为ICAL(In-Context Abstraction Learning)的创新方法。该方法通过让大型视觉语言模型利用低质量数据与人工反馈自主生成认知抽象记忆,显著减少了对专家演示的依赖,并在TEACh、VisualWebArena和Ego4D等多个基准测试中取得了优异表现。
内容框架与概述
本文关注AI社区当前热议的Scaling Law瓶颈问题。预计到2028年左右,现有高质量数据储量将被全部利用完毕,这迫使研究者寻找新的突破路径。人类具备出色的少样本学习能力,能够通过观察与内部世界模型结合快速泛化,这一特性为AI研究提供了重要启示。
CMU与Google DeepMind的研究团队提出的ICAL方法,核心思路是让LLM和VLM根据次优演示和人工反馈创建有效的提示词,从而改善决策能力。该方法可处理四种类型的认知抽象:任务和因果关系、对象状态变化、时间抽象以及任务建构。每轮迭代从有噪声的轨迹出发,经过抽象阶段和人类参与阶段两个步骤完成学习。
实验结果令人瞩目。在TEACh家庭环境对话式教学任务中,ICAL的成功率比原始演示提高了17.9%;在VisualWebArena网络自动化任务中取得了SOTA性能,使用GPT-4V时从14.3%提升至22.7%;在Ego4D视频动作预测任务中,使用的领域内训练数据减少了639倍,表现仍与完全监督式方法相差无几。
研究表明,ICAL不仅显著减少了对专家示例的依赖,而且随着示例数量增长性能持续提升,展现出良好的Scaling能力,为突破数据瓶颈提供了全新思路。
核心概念及解读
ICAL(上下文抽象学习):这是本文提出的核心方法,全称In-Context Abstraction Learning。其创新之处在于不依赖大量高质量专家数据,而是让视觉语言模型通过低质量数据与人工反馈自主生成四种认知抽象——任务因果关系、对象状态变化、时间抽象和任务建构,从而构建可复用的"记忆"来指导后续决策。这种方法模拟了人类从少量经验中快速学习和泛化的能力。
Scaling Law瓶颈与数据耗尽:Scaling Law是指模型性能随数据量和计算量增长而持续提升的规律,但当前面临的核心挑战是高质量数据即将耗尽。ICAL方法通过利用低质量、有噪声的数据来生成高质量的抽象表示,为突破这一瓶颈提供了可行路径,将数据依赖从"量"转向了"质的转化"。
认知抽象与具身思维程序:ICAL将学习过程分解为两个关键阶段——抽象阶段由VLM借助语言评论纠正错误并丰富序列,人类参与阶段则通过执行、监控、反馈整合和轨迹修正实现闭环优化。最终生成的"具身思维程序"(Embodied Programs of Thought)可作为上下文示例在新任务中复用,实现了经验的高效蒸馏与迁移。
少样本学习与数据效率:ICAL在Ego4D基准测试中的表现尤为突出——使用的领域内训练数据减少了639倍,性能仍与完全监督式方法相当。这证明了该方法在极端数据稀缺场景下的实用价值,为资源受限条件下的AI应用开拓了空间。
跨领域泛化能力:ICAL在三个差异显著的任务领域(家庭环境对话教学、网页自动化操作、视频动作预测)中均取得了显著提升,表明该方法具备良好的跨领域泛化能力,不局限于特定应用场景,具有广泛的适用性。
原文信息
此文档由 AI 自动整理