ChatGPT的可靠性问题:两年投资后的现状
摘要
本文记录了作者对ChatGPT最新版本的测试结果,展示了其在处理基本任务时仍然存在的可靠性问题。通过美国各州收入与人口表格、加拿大省份元音计数等测试,暴露出ChatGPT在计数、完整性、基础事实判断等方面的不足。作者质疑在如此多错误存在的情况下,通用人工智能(AGI)是否真如某些预测所言即将实现。
内容框架与概述
文章从软银集团孙正义对AGI的乐观预测切入,引出作者对ChatGPT实际表现的测试。测试内容包括两个主要案例:生成美国各州收入与人口表格,以及统计加拿大省份名称中的元音数量。
在美国各州测试中,ChatGPT初始输出遗漏了多个州,补充人口密度列时出现计算错误,甚至将阿拉斯加完全遗漏。经过多次修正才最终得到正确结果。在加拿大省份元音计数测试中,ChatGPT将字母"h"误认为元音,计数多次出错,修正过程同样曲折。
文章还引用了Sayash Kapoor对OpenAI新Operator代理的测试结果,显示即使是新发布的AI代理也存在可靠性问题。作者最后引用1841年经典著作中的论述,反思当前AI热潮中可能存在的盲目性。
核心概念及解读
AGI预测与现实的差距:软银孙正义预测AGI将在未来几年内实现,但基础测试显示当前AI模型连简单任务都无法可靠完成,这种预测与实际能力之间存在巨大鸿沟。
可靠性问题的具体表现:ChatGPT在计数、列表完整性、基础事实判断等方面频发错误,包括无法准确计数到50、遗漏美国州、错误识别元音字母等,这些问题在经过两年大规模投资后仍然存在。
AI模型的盲目自信:ChatGPT在犯错时并未表现出不确定性,而是自信地给出错误答案,只有在被明确指出后才进行修正,这种特性增加了用户被误导的风险。
修正过程的繁琐性:即使是简单任务,也需要用户多次指出错误才能得到正确结果,这种交互方式大大降低了AI工具的实用性和可靠性。
历史警示的当代意义:作者引用1841年关于群体盲目性的论述,暗示当前AI热潮可能存在类似的非理性现象,提醒人们需要更客观地评估AI技术的实际发展水平。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | ChatGPT in Shambles |
| 作者 | Gary Marcus |
| 发表日期 | 2025年 |
此文档由 AI 自动整理