Gerd Hoffmann · 2026-01-26

AI爬虫逼停自建Git服务器:一场无可奈何的投降

摘要

博主经营十余年的自建Git服务器因AI爬虫的暴力抓取而被迫关闭。大量无意义请求涌入cgit前端,导致服务器不堪重负。最终作者放弃对抗,将仓库迁移至GitHub和GitLab等大型平台,仅保留静态博客。此事折射出AI时代个人托管服务面临的系统性困境。

内容框架与概述

文章以服务器关闭公告开篇,讲述作者自2011年运营公共Git服务器的历史,以及AI爬虫如何通过海量无意义请求最终压垮服务器。面对这一困境,作者选择不与爬虫对抗,而是将仓库迁移至已有镜像的大型代码托管平台,并更新了所有外部链接。

随后作者反思了托管服务的存续问题。其博客于2018年迁移至静态 Jekyll 架构,本应更难被爬虫击垮,但AI爬虫仍通过疯狂请求已关闭的Git服务,产生大量404日志,几乎耗尽磁盘空间。这暴露了AI爬虫对个人基础设施的持续威胁。

文章标题Thank you, AI充满讽刺意味。表面是感谢,实则控诉AI爬虫对开源生态的破坏,迫使开发者不得不依赖少数中心化平台。这一趋势正在侵蚀曾经去中心化的开源协作精神。

核心概念及解读

AI爬虫攻击:自动化程序以极高频率抓取网站内容,常无视robots.txt等访问规则,对小型服务器造成DoS攻击效果。

自建Git服务器:个人或小团队自行搭建的代码托管服务,可完全控制数据和访问策略,曾是开源社区的重要基础设施形式。

代码托管平台集中化:原本分散的开源项目逐渐汇聚至GitHub、GitLab等少数大型平台,形成事实上的垄断格局。

404日志洪泛:即使服务已关闭,爬虫仍持续请求,导致服务器不断返回404错误,日志文件迅速膨胀可能撑爆磁盘空间。


原文信息

字段内容
原文Thank you, AI¹
作者Gerd Hoffmann
发表日期2026-01-26

此摘要卡片由 AI 自动生成