Latent.Space · 2026-02-28

METR访谈：时间跨度评估、威胁模型与AI生产力

摘要

本文是Latent Space播客对METR研究员Joel Becker的访谈。METR致力于AI模型评估和威胁研究，通过测量模型当前和未来的能力，以及它们在现实世界中的行为倾向，来评估AI是否构成巨大风险。访谈重点讨论了著名的时间跨度评估图表、基准测试的细节与偏见、威胁模型的演变，以及AI生产力研究的发现。

内容框架与概述

文章首先介绍了METR的组织使命，名称来源于Model Evaluation和Threat Research两个词的组合。ME部分关注AI模型当前和未来的能力评估，TR部分则研究这些能力如何与特定威胁模型相关联，以判断AI是否对社会构成灾难性风险。

访谈深入探讨了METR最著名的时间跨度评估图表，这张图表在2025年引发了广泛讨论，影响了AGI时间线、投资决策和研究优先级。然而，文章也强调了基准测试的复杂性和数据的局限性，提醒人们需要谨慎解读这些图表背后的细节和误差范围。

关于威胁模型，Joel提到威胁模型已经有所更新。自主复制威胁模型已被降低优先级，而研发加速威胁模型变得更加重要，即实验室内部可能出现的爆炸性能力增长，这可能带来不稳定因素。

最后，访谈还涉及了AI生产力研究，特别是开发者生产力随机对照试验的结果，以及计算资源对AI进步速度的影响。

核心概念及解读

时间跨度评估：一种评估AI模型在执行需要持续注意力和规划能力的长期任务时表现的方法，通过测量模型在不同时间长度任务上的完成率来绘制能力增长曲线。

威胁模型：METR用来评估AI模型是否构成社会威胁的框架，包括自主复制、研发加速等不同场景，通过连接模型能力与实际行为倾向来判断风险等级。

基准测试偏见：在进行模型能力评估时，测试任务的选择、评分标准和数据收集方式可能引入系统性偏差，需要谨慎解读评估结果并考虑误差范围。

原文信息

字段	内容
原文	METR’s Joel Becker on exponential Time Horizon Evals, Threat Models, and the Limits of AI Productivity
作者	Latent.Space
发表日期	2026-02-28

此摘要卡片由 AI 自动生成

‹

SemiAnalysis创始人深度解析2000亿AI资本支出与芯片战争

Latent.Space · 2026-02-28

OpenAI完成史上最大110亿美元融资

Latent.Space · 2026-02-28

›

METR访谈：时间跨度评估、威胁模型与AI生产力

摘要

内容框架与概述

核心概念及解读

原文信息

目录