在 ChatGPT 时代教书是一种痛苦
在 ChatGPT 时代教书是一种痛苦
当生成式AI让"交作业"变成"交仿制品",大学课堂里真正失落的不是分数,而是学习本身。这篇文章的作者是一位兼职地球科学教师,他用"大规模杀伤性武器"来形容LLM给教育带来的冲击——不是因为它让作弊变得容易,而是因为它让教师的角色从传道授业者,变成了需要裁决256种灰色地带的侦探与检察官。文章最有力的地方在于那个叉车与举重室的类比:用AI写论文就像开着叉车进健身房,杠铃确实举起来了,但什么肌肉都没长出来。当形成性评估被LLM代劳,测验沦为"智能体"一键完成的流程,那些真正想学的学生反而成了最大的牺牲品。更令人无奈的是,目前可行的应对方案——口试、监考写作——对异步在线课程的弱势群体并不适用。这不是一篇简单的"AI威胁论",而是一位站在讲台前的人,对教育本质正在被悄然侵蚀的沉痛记录。
忧未曾止,亦不爱这枚炸弹
LLM(大型语言模型)的使用是我作为大学教师所面临过的最令人沮丧的问题。
– 2026年4月13日 19:00 |
图片来源:EvgeniyShkolenko / Getty Images
我以兼职教师的身份在大学讲授地球科学课程已有很长一段时间了,同时还要兼顾其他工作。我开始这份工作是因为它令人愉快;没有人会冲着出了名的低薪或完全没有工作保障而进入这一行。与学生打交道就是那种真正有成就感的经历之一,它令人上瘾,以至于他们应该就此向人们发出警告。
但多亏了生成式 AI(Generative AI),这份工作变得大多令人痛苦——至少在某些情境下是如此。
过去几年里,我一直专门教授异步在线课程(Asynchronous Online Courses),也就是录制视频而非直播授课。这些课程一直比面授课程更具挑战性,在面授课程中你更有能力让学生保持正轨。如果学生不必在预定时间出现在教室里待上一个小时,且没人能看到他们不理解某件事时不由自主的面部表情,那么他们就这么……掉队的可能性就会大大增加。
但自从 ChatGPT 出现以来,教师的工作就不仅仅是教授科目并拼命试图让每个学生的盘子都转起来。它越来越成为一份兼职侦探和检察官的工作,因为那些没有动力完成作业的学生不再需要直接撂挑子了。他们几乎可以同样轻松地交上一份形似作业的仿制品。而且有相当数量的学生确实如此——在 College Board 最近一项对 600 名高中生的调查中,84% 的学生表示他们曾将生成式 AI 用于课业。
教师对作弊当然并不陌生。但考试中偷看藏起来的笔记或抄袭维基百科的段落,与被称为 LLM 的大规模杀伤性武器相比,不过是古朴的石器罢了。我怀念那种非此即彼的简单问题带来的舒适,比如"作弊还是没作弊?"而现在,我被迫裁决 256 种灰色,并提供足够的文件来捍卫我的决定,以防学生将我的评分上诉到多层级的机构审查委员会。
这种摧残灵魂的工作不仅消耗了我惊人比例的时间,还给我留下了一个令人不安的想法:就连我那些投入的学生,也可能并非表面看起来那样。也许他们掌握那个困难概念是因为我的帮助,又或者他们只是比我所能检测到的更娴熟地洗白了 LLM 反刍出的维基百科段落。
让我来解释为什么在这个环境中学生是损失最大的一方,以及为什么像我这样的教师感到几乎无力解决这个问题。
做或不做,没有 AI
学生常常对课程作业持有误解。他们可能把教师视为挡在他们想要的成绩面前的对手。他们把"得出正确答案"视为教育的目标,因为这样才能拿到那个分数。
但这并不比认为记录重复次数是健身的目标更正确。举重时的艰苦努力才是关键,因为那才能产生身体上的成果。一个流行的类比是,用 LLM 写文章就像开着叉车进入举重室。杠铃确实被举起来了,但什么成果都没有。我并不是指望你能替我回答考试题目——我不需要你的文章来帮我摆脱困境。完成作业的过程,才是你需要从中带走些什么的东西。
在最近一段关于 Sora 让用户生成相对逼真但问题深重的视频变得多么容易的视频中,Hank Green 揉着眼睛,朝着 OpenAI CEO Sam Altman 的比喻方向喊道:"摩擦很重要,Sam!"
Green 同样可能是在描述学习的过程。如果没有摩擦,没有努力,那就没有真正的学习发生,学生也没有学到东西。他们看油漆变干也不会比这更有成效。
我的课程作业中有一些问题需要批判性思维,将想法延伸到我所教授的材料之外。例如,有一个问题要求他们通过思考一种研究风蚀的方法来偶然发现自然实验(Natural Experiment)的概念,而无需等待许多辈子等某块巨石被侵蚀(这个实验的对照组类型与我们事先讨论的例子——如医学试验中的安慰剂——截然不同。)
注意到一种变化,我最近审阅了自 2019 年开始提出这个问题以来收到的全部 279 份答案。在 ChatGPT 出现之前,大约三分之一的学生成功想通了,独立地串联起对科学思维相当有力的要点,而不是被动地吸收又一个事实。在过去两年里,成功率攀升到了一半以上。这没什么大不了的谜团:ChatGPT 在收到这个问题提示时使用的术语现在频繁出现在答案中。
学生可能认为这不过是查阅信息的情况——他们在调查中大多将之评为 LLM 最有帮助和可接受的使用方式——但输入问题并转述回答与思考问题并不是一回事。
这样的问题就是我们所说的"形成性评估(Formative Assessment)"。我从不评断答案的正确性,只评断努力程度。其目的在于弄清核心概念是否真的被理解了,或者那个学生是否仍然需要一点帮助来建立联系。在风险较低的时候——正如课程大部分时间那样——失败是学习中有用的组成部分;而在期末考试中遇到这个问题将完全是另一种互动。
如果将形成性评估只是交给 LLM 处理,那把它们纳入课程还有什么意义?突然间,这对学生和教师来说都成了浪费时间。小测验是帮助学生检查自己理解程度的极好学习工具——前提是学生自己去做。现在,你可以指示一个"智能体(Agentic)"LLM 浏览器,用一个毫无摩擦的提示完成整个课程中的所有测验。
教师是应该为那些想从中受益的学生保留这类作业并接受作弊的存在,还是应该为了阻止作弊而干脆取消这个学习机会?
演化:自然选择
许多教师正试图通过回归少数基本不受 LLM 影响的评估工具来应对这场危机——比如口试或在课堂监督下完成的书面作业。
但这些解决方案对异步在线课程的教师来说都不可行。这很令人遗憾,因为这类课程的可得性至关重要。它们可以服务于有身体障碍的学生、远离校园的农村地区学生,或者那些在全职工作或照顾家人的同时努力获取学位的学生。如果我们不得不彻底放弃在线课程的想法,这些群体就是牺牲品。
但即使对于面授课程,为防止 LLM 作弊所做的调整也往往是对教学质量的妥协。例如,劳动密集型口试之所以濒临消失,并不只是因为师生比的膨胀。纸笔(或键鼠)考试则更容易确保每位学生的体验一致,并减少评分中潜在的偏见。
那些曾经可能是极佳教学工具的写作作业,显然成了最先被砍掉的东西。我过去在一门自然灾害课程中,曾让学生为一部好莱坞大片构思剧情,要求同时运用准确和不准确的物理过程。这对他们的写作能力是很好的训练;学生们觉得很有趣,也迫使他们巧妙运用了大量所学知识。
但 LLM 能在 10 秒内炮制出一篇结构类似的文章。虽然这些内容很容易识别(且质量很低),但这种作业已经变得不可持续了。我可以花 15 到 30 分钟批改一位真实学生的论文,但处理每一起作弊案例却很容易耗费四到八小时令人沮丧且压抑的工作。所以我只好把它从课程中删掉。
在过去,抱怨抄袭问题的教师常常被(有时是居高临下地)告知,也许他们应该尝试设计更好的作业,而不是那种靠一点复制粘贴就能轻松完成的任务。与其让学生去定义术语或总结概念(因为维基百科就在那里),更好的建议是给他们更高层次的任务——评估一个问题的不同解决方案,或者反思这个概念如何在自己生活中出现。更高质量的作业会更有吸引力,也更难作弊。
但现在,让 ChatGPT 来假装写一篇反思文章,和让它定义术语一样容易。两者都比抄袭维基百科更省事!而且按照我们传统的作弊标准,这些都极难追究,因为不存在确凿的 LLM 使用检测方法。(这有利也有弊——也意味着被冤枉的无辜学生往往无法证明自己是诚实完成作业的。)
对这种困境感到恼火的不止我一个。一项对约 3000 名大学教师的调查显示,85% 的人认为 LLM"使学生不太可能发展出批判性思维能力",72% 的人报告了管理 LLM 使用方面的挑战。
不出所料,高等教育管理者——他们正忙于签订机构 LLM 订阅合同,以展示他们的思想领导力多么前瞻——给出的回应是告诉教师,他们的工作是教学生"如何有效使用 AI"。
这种"有效使用"的多数例子涉及学生用 AI 生成一篇文章,然后对其进行批判。(好像互联网上不是充满了可供批判的人类写作一样!)每次我问一位教师这个作业的学习目标是什么,答案都是帮助学生明白为什么不应该信任 LLM 来为他们写作。如果你发现这和管理者的期望之间存在矛盾,请告诉我。
即使你找到了创造性的、高度结构化的活动,其中的护栏能让学生在课堂时间内进行与课程相关的学习,问题依然存在:在其余 23 小时里,LLM 对那些学生产生了什么影响?
这件事之所以让教师们感觉与过去的技术恐慌如此不同,是因为对于 AI 如何破坏教育的几乎每一个方面,都没有明确的解决方案。这是一场奇怪的游戏:你努力让学生去做你认为有助于他们学习的事情,而他们却拿 LLM 对准你;感觉唯一的获胜方式就是退出游戏。
只有颠覆,没有建设
在当前处境中倦怠的教师们,忍受着连篇累牍的陈词滥调。这是未来,最好习惯它! 你能不能至少给我几个好用的彩票号码,哦伟大而全能的穿越者?卢德分子当年也说过不该用计算器! 你的意思是像数学教师目前在教授许多技能时限制使用计算器(值得注意的是,计算器不会幻觉出错误的答案)那样?LLM 就是私人导师! 你会请一个玩"两真一假"游戏的导师吗?
似乎没有人愿意听教师解释,在这种毁灭性的教育反物质面前努力做好本职工作,感觉有多糟糕。相反,我们得到的只是 AI 评分工具,用来给 AI 生成的作业打 AI 生成的分数。
也许像我这样的批评者只是不理解 AI 革命(管它是什么),但我们都了解人性,也熟悉学生的老套路。LLM 是一条捷径。学生常常会走捷径,然后后悔。我们都有过这样的经历。
作为一名教师,我想为我的学生铺设一条清晰的上山之路,看着他们登顶。但相反,我越来越觉得我只不过是在拼命防守,防止他们往除了向上以外的各个方向乱跑。这让人筋疲力尽,而且我大多会输,这意味着我甚至没在帮他们。学生们确实想要爬上去,但跳过一些山总是那么诱人。
几个月前,我无意中听到几个大学生在讨论他们的课程。一个人抱怨当晚有作业要做,另一个人难以置信地问为什么不让 ChatGPT 做。第一个人回答说:"这是我的专业课,我真的需要学点东西。我在其他课程上用 AI。"
尽管大学管理者和 LLM 广告试图粉饰这一切,但我还没遇到过哪个学生认为让 LLM 替自己写作业是在学习。对他们来说,这只是工作量管理而已。
谁知道如果 AI 泡沫破裂,无摩擦且无处不在的 LLM 访问萎缩成某种受限得多的东西,会发生什么。但只要 AI 还存在,它肯定不是在革新教育、提升学习效果。它只是让那些长久以来一直帮助学生学习的做法变得异常困难。
术语表
| 原文 | 中文 |
|---|---|
| Agentic | 智能体 |
| Asynchronous Online Courses | 异步在线课程 |
| Formative Assessment | 形成性评估 |
| Generative AI | 生成式 AI |
| Hank Green | Hank Green |
| LLM | 大型语言模型 |
| Natural Experiment | 自然实验 |
| Sam Altman | Sam Altman |
此文章由 AI 翻译
