Andrew Deck · 2026-01-28

新闻出版商限制互联网档案馆访问因AI爬取担忧

摘要

随着AI公司大量爬取网络数据用于训练，多家主流新闻出版商开始限制互联网档案馆的访问。卫报、纽约时报和金融时报等机构担心其内容通过档案馆的Wayback Machine被AI公司获取。尽管互联网档案馆主张其使命是保存历史记录，但在版权保护与技术伦理的博弈中，这些出版商正采取更严格的限制措施。

内容框架与概述

文章开篇揭示了核心矛盾：互联网档案馆作为非营利性数字存档机构，其Wayback Machine服务被AI公司利用获取训练数据。卫报商业事务负责人罗伯特·哈恩指出，许多AI企业将档案馆API视为便捷的内容获取渠道，这促使该报限制档案馆对其文章的访问，同时保留首页等公共页面的存档。

随后，文章扩展了这一趋势的广度。金融时报同样禁止包括OpenAI、Anthropic和Internet Archive在内的爬虫访问付费内容。纽约时报则采取了更强硬的立场，明确在其robots.txt文件中禁止archive.org_bot。科技媒体Reddit也加入了限制行列，与档案馆数据被滥用的现象形成呼应。

最后，文章探讨了这一争议的深层含义。计算机科学家迈克尔·尼尔森将Internet Archive和Common Crawl比作被AI公司利用的善意力量。档案馆创始人布鲁斯特·凯尔则警告，限制存档访问将削弱公众获取历史记录的权利，可能损害对抗信息失真的努力。