NearlyRight · 2025-08-18

AI研究人员如何意外发现他们对学习的固有认知是错误的

五年前,训练拥有数万亿参数的神经网络被认为是违反机器学习基本规则的禁忌,因为有三百年的统计理论——即“偏差-方差权衡”——作为支撑,预测大模型只会记忆数据而无法泛化。然而,当研究人员在2019年无视警告继续扩大规模时,他们意外地颠覆了这一传统认知,引发了AI领域从追求效率到追求规模的范式转移,推动了大模型时代的到来。

这一理论悖论的解决源于“双重下降”现象的发现和“彩票假说”的提出。研究表明,大型网络的成功并非依赖于学习复杂的解决方案,而是通过增加参数量,提供了更多机会去寻找那些包含在其中的、能够高效解决问题的“中奖彩票”子网络。这解释了为何看起来充满冗余的庞大模型,反而比精心设计的小模型具备更强的泛化能力和涌现能力。

AI研究人员如何意外发现他们对学习的固有认知是错误的 全屏