Simon Willison · 2025-11-13

AI实验室会被"骑自行车的鹈鹕"测试难倒吗

摘要

Simon Willison提出了一个看似荒谬却颇具洞察力的AI能力测试：让模型绘制骑自行车的鹈鹕SVG。他解释为何相信AI实验室无法偷偷针对此测试训练，因为一旦有模型突破就会被识破，而现状是顶尖模型仍画得相当糟糕。OpenAI已否认针对此benchmark训练，Willison则半开玩笑地表示他的长期计划是让多家AI实验室为通过此测试投入大量资源。

内容框架与概述

文章开篇提出一个常见质疑：AI实验室是否可能在发布前针对各类benchmarks进行训练？作者以骑自行车的鹈鹕测试为例说明这种情况容易被识破，因为该测试具有高度泛化性，任何针对性训练的模型在变体测试中都会暴露。随后作者指出当前最佳模型在此测试上的表现仍然拙劣，这恰恰证明它们未受专门训练。文中提到OpenAI员工已明确否认针对此测试进行训练。作者最后以幽默口吻阐述其长期策略：希望通过这个看似可笑的benchmark，诱使AI实验室为通过测试而投入资源改进模型，最终让自己获得完美的鹈鹕骑行图。