Latent.Space · 2025-09-17

2025 年 AI 工程阅读清单

摘要

这是一份面向 AI 工程师的 2025 年度阅读清单,由 Latent Space 团队精心策划。清单从实用角度出发,精选约 50 篇论文/模型/博客,覆盖前沿 LLM、基准评估、提示工程、RAG、智能体、代码生成、视觉、语音、扩散模型和微调等 10 个核心领域,每个领域推荐 5 篇"必读"内容,旨在帮助从零起步的工程师用一年时间(每周一篇)系统掌握 AI 工程关键知识。

内容框架与概述

文章开篇明确了编写目标:为 AI 工程师提供一份约 50 篇的实用阅读清单,强调不是简单罗列论文名称,而是解释每篇论文为何重要。与传统学术清单不同,这份清单刻意跳过了《Attention is All You Need》等经典但工程实践中较少直接使用的基础论文,聚焦于工作中真正需要的知识。

在前沿 LLM 部分,清单系统梳理了 GPT 系列演进脉络(GPT1 到 GPT4.5)、Claude 和 Gemini 等竞争模型、Llama 开源系列,以及 DeepSeek 的全系列论文。特别指出 2025 年推理模型(如 o1、R1、QwQ)将主导前沿,并推荐了 Sebastian Raschka 的相关文献综述。基准评估部分则介绍了 MMLU、GPQA、MATH 等知识与数学能力测试,以及 MRCR 等长上下文评估方法。

后续章节涵盖提示工程与思维链(从 Few-shot Learning 到 Chain of Thought)、RAG(检索增强生成)、智能体系统、代码生成、多模态视觉与语音处理、图像/视频扩散模型,以及微调技术等内容。每个领域都提供了核心论文和扩展阅读建议,形成了一个完整的 AI 工程知识体系。

核心概念及解读

Frontier LLMs(前沿大语言模型):指 GPT-4、Claude、Gemini 等最先进的语言模型。清单建议通过阅读 OpenAI、Anthropic、Google 的技术报告理解模型演进,同时关注 DeepSeek、Llama 等开源模型的技术路线。

Reasoning Models(推理模型):2025 年的核心趋势,包括 o1、o3、R1、QwQ 等。这类模型通过"Let’s Verify Step By Step"等技术实现更强的逻辑推理能力,是当前 AI 能力边界的代表。

Benchmarks and Evals(基准与评估):衡量模型能力的标准化测试,如 MMLU(知识)、MATH(数学推理)、MRCR(长上下文)。前沿实验室已转向更难的变体如 MMLU Pro 和 GPQA Diamond。

RAG(检索增强生成):将外部知识检索与语言模型结合的技术范式。清单推荐了从基础概念到 GraphRAG、ColBERT 等进阶实现的系统学习路径。

Post Training(后训练):指预训练之后的对齐、指令微调等技术,包括 RLHF、DPO 等方法,是将基础模型转化为可用产品的关键环节。


原文信息

字段内容
原文The 2025 AI Engineering Reading List
作者Latent.Space
发表日期2024-12-28

此摘要卡片由 AI 自动生成