DeepSeek——中国AI初创企业的崛起与全球影响
摘要
DeepSeek是中国幻方量化旗下的AI初创团队,以极低成本训练出性能比肩OpenAI的大语言模型V3和推理模型R1,其MoE架构、MLA注意力机制和GRPO强化学习算法等工程创新引发全球关注,对闭源与开源AI公司、GPU市场及创业生态产生深远影响,同时也面临数据蒸馏、成本透明度和安全性等争议。
核心概念及解读
MoE混合专家结构:将输入数据动态分配给不同专家子网络处理,仅激活部分参数,从而大幅提升计算效率并降低训练与推理成本
MLA多头潜在注意力机制:通过压缩KV缓存减少内存占用,优化Transformer架构在大规模参数下的推理效率
GRPO群体相对策略优化:一种无需人类反馈的强化学习算法,去掉传统PPO中的Critic模块,让模型通过自我对弈直接优化策略,显著降低训练开销
数据蒸馏:通过调用大模型API获取输出结果,再用这些结果训练小模型的技术手段,在AI行业中存在知识产权争议
开源AI生态:DeepSeek将模型权重和技术细节完全公开,降低了AI技术的使用门槛,推动更多开发者和企业参与AI应用创新
DeepSeek:中国AI初创企业的崛起与全球影响
原文标题:硅谷视角深聊:DeepSeek的颠覆、冲击、争议和误解 - YouTube
文章类别:博客/视频文稿
内容整理:
文章框架
├── 引言:DeepSeek的崛起与全球关注
├── DeepSeek的技术创新
│ ├── 模型架构创新:MoE和MLA
│ ├── 训练方法创新:GRPO算法
│ └── 推理模型优化:R1-Zero和R1
├── DeepSeek对全球AI行业的影响
│ ├── 对闭源AI公司的冲击:OpenAI和Anthropic
│ ├── 对开源AI公司的冲击:Meta等
│ ├── 对GPU计算市场的影响:Nvidia
│ └── 对AI创业生态的影响
├── DeepSeek的争议与误解
│ ├── 数据蒸馏与模型抄袭争议
│ ├── 成本估算的准确性
│ └── 安全性能问题
├── DeepSeek的商业模式与未来
│ ├── 与Magic Square的关系
│ └── 商业化与盈利模式
└── 结语:DeepSeek的未来展望
文章标签
#DeepSeek , #AI创新 , #全球影响 , #技术争议
详细内容
引言:DeepSeek的崛起与全球关注
DeepSeek是中国的一家AI初创企业,于2024年12月发布了6700亿参数的大型语言基础模型DeepSeek V3,并在2025年1月开源了两个推理模型DeepSeek-R1-Zero和DeepSeek-R1。其后,DeepSeek又推出了开源多模态模型Janus。DeepSeek的模型以极低的成本实现了与OpenAI推理模型o1相当的性能,引发了全球AI行业的关注。这一事件甚至导致Nvidia的股价在2025年1月27日暴跌17%,市值蒸发5600亿美元。
DeepSeek的技术创新
- 模型架构创新:MoE和MLA
DeepSeek在V2模型中引入了混合专家结构(MoE)和多头潜在注意力机制(MLA)。MoE通过将输入数据动态分配给不同的专家子网络处理,提高了计算效率并降低了训练和推理成本。MLA则通过减少KV缓存的使用,进一步优化了模型架构的效率。 - 训练方法创新:GRPO算法
DeepSeek在训练推理模型时采用了无监督的强化学习算法GRPO(Group Relative Policy Optimization)。这种方法不依赖人类反馈,通过自我优化策略,显著降低了训练成本。 - 推理模型优化:R1-Zero和R1
DeepSeek-R1-Zero专注于数学和编程问题的推理能力,而R1则在此基础上增加了更多监督数据,提升了模型的综合能力。R1的训练完全基于无监督强化学习,展示了AI在无需人类指导的情况下自动学习策略的能力。
DeepSeek对全球AI行业的影响
- 对闭源AI公司的冲击:OpenAI和Anthropic
DeepSeek的出现对OpenAI和Anthropic等闭源AI公司构成了直接的威胁。其低成本、高性能的模型使得OpenAI的高利润模式受到挑战。尽管OpenAI推出了新的模型以应对,但DeepSeek的低价策略仍然对市场产生了深远影响。 - 对开源AI公司的冲击:Meta等
DeepSeek的开源策略对Meta等开源AI公司也带来了压力。Meta原本计划推出Llama4模型,但DeepSeek的出现使其不得不加快研发进度。DeepSeek的开源模型在技术细节和性能上均优于Meta,这使得Meta在开源领域的领先地位受到挑战。 - 对GPU计算市场的影响:Nvidia
DeepSeek的模型训练成本极低,引发了市场对Nvidia GPU需求的担忧。然而,从长远来看,DeepSeek的创新可能会吸引更多参与者进入AI领域,从而增加对GPU的总体需求。尽管如此,DeepSeek的技术创新仍然对Nvidia的市场地位构成了潜在威胁。 - 对AI创业生态的影响
DeepSeek的低价策略和开源模式为AI创业公司提供了新的机会。其低成本的推理模型使得更多的开发者能够以较低的成本使用AI技术,从而推动了AI应用的普及和发展。
DeepSeek的争议与误解
- 数据蒸馏与模型抄袭争议
DeepSeek被指控使用OpenAI的数据进行模型训练,这一行为被称为“数据蒸馏”。尽管没有确凿证据表明DeepSeek直接使用了OpenAI的模型,但这一指控引发了关于AI行业知识产权保护的讨论。 - 成本估算的准确性
DeepSeek声称其模型训练成本仅为557.6万美元,这一数字远低于行业预期。然而,一些分析师认为,DeepSeek可能低估了其实际成本,包括硬件投资和研发费用。 - 安全性能问题
2025年1月,网络安全公司Wiz披露DeepSeek的一个数据库被意外暴露在互联网上,导致系统日志、用户提示和API认证信息泄露。这一事件引发了对DeepSeek安全性的担忧。
DeepSeek的商业模式与未来
- 与Magic Square的关系
DeepSeek是由Magic Square Quantitative孵化的团队。Magic Square是一家专注于量化交易的公司,拥有丰富的AI技术积累。DeepSeek的团队成员大多来自Magic Square,他们在AI领域拥有多年的经验。 - 商业化与盈利模式
DeepSeek目前尚未明确其商业化路径,但其开源模型和低价策略为其未来的盈利模式提供了多种可能性。DeepSeek可能会通过提供API服务、开发定制模型或与其他公司合作来实现盈利。
结语:DeepSeek的未来展望
DeepSeek的出现为全球AI行业带来了新的活力和挑战。其技术创新和低成本策略不仅推动了AI技术的普及,也引发了关于AI行业未来发展的广泛讨论。尽管面临诸多争议和挑战,DeepSeek的未来仍然值得期待。
视频要点
一、引言:AI市场的搅局者——DeepSeek (0:00 - 2:51)
- DeepSeek简介及其成就 (0:06 - 0:36)
- 中国初创公司,幻方量化旗下AI团队。
- 发布6700亿参数大语言基础模型DeepSeek V3。
- 开源推理模型DeepSeek-R1-Zero和DeepSeek-R1。
- 开源多模态模型Janus。
- 以低成本实现不输OpenAI的性能。
- DeepSeek引发的轰动与影响 (0:36 - 1:24)
- 颠覆AI大模型发展范式。
- 影响GPU算力市场和AI初创企业生态。
- 微软CEO和Scale AI创始人的发言将其推向风口浪尖。
- 英伟达股价大跌。
- 视频内容概要 (1:29 - 2:39)
- 技术创新:DeepSeek的创新之处。
- 行业影响:对OpenAI、Meta、英伟达及创业生态的影响。
- 争议与非共识:模型蒸馏、数据盗窃、成本估算、算力提供、安全性能等。
二、DeepSeek V3架构创新:MoE与MLA技术解析 (2:56 - 9:01)
- 工程创新而非技术创新 (3:03 - 3:13):提高效率,降低成本。
- DeepSeek发布的三个模型 (3:13 - 3:41)
- DeepSeek V3:基础大模型,使用无监督数据。
- DeepSeek-R1-Zero:推理模型,增强学习微调,数学和代码问题。
- DeepSeek-R1:推理模型,混入监督数据,提高综合能力。
- V3架构创新 (3:50 - 5:24)
- 混合专家结构(MoE):优化负载均衡。
- 多头潜在注意力机制(MLA):节省KV cache,提高效率。
- MoE详解 (5:38 - 8:22)
- 比喻:餐厅厨师与服务员,动态分配任务。
- 核心:动态路由机制,激活部分专家,提高计算效率,降低成本。
- DeepSeek的创新:优化专家间交流,软件和硬件工程师密切配合。
- MLA详解 (8:22 - 8:44)
- 解决内存限制问题。
- V3应用多token预测(MTP)技术,预测多个token,提高性能。
三、从R1-zero到R1:强化学习和GRPO算法 (9:07 - 14:10)
- 推理模型特点 (9:07 - 9:27):擅长解答有标准答案的问题(写代码、数学题)。
- R1的创新:无需人类反馈的强化学习 (9:27 - 9:48)
- R1-Zero:纯粹的强化学习,探索无监督数据下的推理能力。
- 强化学习简介 (9:55 - 10:13)
- AlphaGo的例子:自我对弈优化策略。
- 基于人类反馈的强化学习(RLHF)的弊端:不准确性、偏见、泛化能力差、优化困难。
- DeepSeek采用GRPO强化学习算法(10:38 - 11:51) - 群体相对策略优化, 不直接提供所有问答数据,而是让模型基于已有知识进行优化 - 对比OpenAI的PPO算法:GRPO去掉Critic部分,直接优化策略,降低成本。 - GRPO并非新技术,但DeepSeek将其应用于大规模强化学习,提高效率。
- R1-Zero的训练 (12:25 - 13:06)
- 提供数学、编程和逻辑问题。
- 两个奖励函数:验证标准答案,确保输出连贯、格式规范。
- 模型提供多个答案,打分,自动找到解决问题的策略。
- R1-Zero的局限性与R1的诞生 (13:44 - 14:10)
- R1-Zero可读性低,一个回答出现多种语言。
- 创建新的监督微调(SFT)数据集,重新训练V3基础模型,得到R1。
- 证明无监督强化学习训练推理模型的可行性,少量算力提升性能。
四、DeepSeek争议点 (14:16 - 26:35)
- 争议点1:是否存在模型蒸馏? (14:52 - 20:04)
- 指控:从OpenAI模型中提取知识进行蒸馏。
- 媒体报道:OpenAI找到DeepSeek使用其数据的证据,侵犯知识产权。
- 蒸馏的定义:黑箱蒸馏,无需访问大模型,调用API生成结果进行训练。
- 证据:API使用情况、模型性能相似度、输出结果相近。
- 业内观点:蒸馏是常用做法,学术界常见。
- OpenAI服务协议:不得将模型产生的数据用于开发竞品。
- 争议:竞争对手定义模糊,证明蒸馏困难。
- OpenAI的两难境地:指控蒸馏需公开代码,损害自身模型保护。
- 讽刺:OpenAI曾被指控使用受版权保护的数据。
- 类比:专利药与仿制药,法律和规则需完善。
- 争议点2:为何成本如此低? (20:12 - 24:44)
- V3模型训练成本:557.6万美元(278.8万个H800 GPU小时,每小时2美元)。
- 质疑:实际花费远高于此,硬件支出、模型开发、测试、试错成本。
- 一次性训练费用不是烧钱大头,实验、开发、人力成本更高。
- GPU型号猜测:H100、H800、A100、Hopper GPU、H20。
- 重点:DeepSeek技术创新带来推理端价格大幅下降。
- 推理成本:稀疏度高,激活参数少(370亿),持续消耗低。
- 财务角度:推理成本比训练成本更重要。
- 争议点3:安全漏洞与法律风险 (24:54 - 26:35)
- Wiz报告:DeepSeek暴露关键数据库,泄露系统日志、用户提示、API身份验证。
- 安全风险:黑客可窃取敏感信息、密码、本地文件、专有信息。
- 质疑:DeepSeek团队是否做好服务全球用户的准备。
- 影响:可能触发安全监管。
- DeepSeek回应:遭受网络攻击,限制注册方式。
五、对OpenAI影响:开启新融资、面临被迫降价 (26:42 - 33:42)
- 对闭源模型的冲击 (27:04 - 27:37)
- 证明AI领域不存在真正的护城河。
- Anthropic和OpenAI估值和定价合理性受质疑。
- 价格冲击:更便宜、性能差不多、开源的模型出现。
- OpenAI的反应 (27:37 - 30:30)
- 用户下载量和活跃度:DeepSeek在多市场下载量居榜首,日活达ChatGPT的23%。
- 技术领先带来的垄断溢价缩水。
- Sam Altman反击:提供更好的模型。
- 发布o3-mini推理模型,首次对免费用户提供,价格比之前便宜63%。
- 发布Deep Research模型,进行多轮信息搜索与验证,准确率创新高。
- OpenAI的两轮发布:展示肌肉,降价,强调模型更好。
- OpenAI的压力与商业模式 (30:30 - 33:42)
- 保持技术龙头地位不易,基础研究和探索成本高。
- 推理侧利润高,训练侧烧钱,商业模式需平衡。
- 类比:专利药与仿制药,研发成本由大药企承担。
- 开启新一轮融资:筹资400亿美元,估值3000亿美元。
- 面临投资人质疑:护城河持续性,资金需求合理性。
- 二级市场交易停滞:没人买卖OpenAI和Anthropic股票。
六、对Anthropic影响:闭源模型玩家面对更大压力 (33:49 - 35:32)
- Anthropic的困境 (33:49 - 34:19)
- 2B和2D API有优势,2C不如ChatGPT。
- DeepSeek API价格直接打击。
- 未推出推理模型,被OpenAI和DeepSeek夹击。
- Anthropic的反应 (34:25 - 35:08)
- 创始人言辞不客气,要求加强算力出口管制。
- 与Sam Altman和Yann Lecun等表态不同,受批评。
- 闭源模型的压力 (35:14 - 35:32)
- 需保证领先性,否则无意义。
七、对Meta Llama影响:进入War Rooms模式 (35:41 - 37:38)
- Meta的紧急状态 (35:55 - 36:14)
- 成立四个“War Rooms”作战室。
- 即将发布Llama 4开源模型。
- 若Llama 4落后于DeepSeek,威胁“开源模型引领者”地位。
- Meta的开源战略 (36:14 - 36:50)
- 参照安卓模式,不从系统本身赚钱,从生态和应用赚钱。
- Llama需是最领先的开源大模型。
- Meta的价格压力 (36:55 - 37:26)
- Llama运行成本比OpenAI模型昂贵。
- DeepSeek价格更低,带来进一步压力。
- 开源的优势 (37:33 - 37:38):互相学习,反馈和进步。
八、对Mistral影响:开源商业化瓶颈与创新困境 (39:06 - 42:01)
- Mistral的困境 (39:40 - 39:59)
- 曾以70亿参数小模型轰动业界。
- MoE技术由Mistral推行。
- 技术掉队,面临商业化难题,传出被收购声音。
- 开源公司的挑战 (39:59 - 41:19)
- 需找到变现方式:托管服务、高级功能、开放模型访问。
- Mistral的例子:最好模型不再开源,研究细节不公开。
- DeepSeek可能走上类似道路,确保可持续发展。
- DeepSeek能力不足以提供模型服务,停止新用户注册。
- 商业化并非DeepSeek首要任务,有母公司资金支持。
- DeepSeek的未来 (41:50 - 42:01):能否保持开源领先,从社区获得反馈。
九、AI算力市场冲击:DeepSeek是否“绕过”了Cuda? (42:12 - 52:22)
- 市场情绪冲击 (42:12 - 42:19):英伟达股价下跌后回升。
- 两种声音 (42:26 - 42:51)
- DeepSeek带来新范式,无需大量购买英伟达芯片,算力市场崩塌。
- DeepSeek降低算力成本,更多玩家入局,算力需求更大,利好英伟达。
- 华尔街和硅谷共识 (42:57 - 43:40):第二种逻辑,利好英伟达。
- 未达成共识的部分 (44:06 - 44:12):DeepSeek能否击垮英伟达的护城河CUDA。
- 媒体误导 (44:51 - 45:05):“DeepSeek已经绕过CUDA”,引发市场恐慌。
- 嘉宾观点 (45:05 - 51:49)
- DeepSeek没有绕过CUDA,PTX是CUDA生态一环。
- 编写PTX代码复杂,难以维护,对技术人员要求高,难移植。
- 业界没有动力大规模改变算力使用范式。
- 短期内难以挑战英伟达,数据中心迁移成本高。
- 对AMD是利好,长期来看仍是英伟达。
- DeepSeek只支持DeepSeek,CUDA是通用GPU调用软件系统。
- FP8计算和存储 (49:20 - 50:22)
- 加速训练,减少GPU内存使用。
- 质疑:是否很多模型训练和推理不一定要买英伟达最好芯片。
- ASIC专项芯片、谷歌TPU、亚马逊自研芯片是否有更高效用途。
- 科技巨头加大对ASIC芯片投入,减少对英伟达依赖。
- 结论 (50:29 - 51:49)
- 冲击英伟达溢价,但不会击垮壁垒和护城河。
- DeepSeek减少对CUDA深度绑定,给AMD、Google TPU、华为机会。
- 英伟达会优化CUDA,降价,保持市场份额。
十、“AI届拼多多”:价格战打响,多行业受益 (52:41 - 56:06)
- 模型推理成本跳水 (52:47 - 52:52):对应用层面短期影响最大。
- R1逻辑推理潜力 (52:52 - 53:06):软件行业可能遭遇颠覆性变革。
- 价格战 (53:06 - 53:25)
- DeepSeek发布后引爆价格战。
- 字节等大厂降价。
- 对AI应用开发者的影响 (53:32 - 54:26)
- 锦上添花:利润量变,F1赛车手追求极致表现。
- 雪中送炭:之前烧钱补贴的场景有利可图。
- 具体例子 (54:31 - 55:59)
- 陪伴型AI:改写成本结构,商业模式变革。
- AI agent:成本和响应速度显著进步。
- 从0到1新业态 (56:13 - 56:46)
- 端部署AI小模型能力突飞猛进。
- 设备端AI应用百花齐放,特别是2C应用。
十一、AI创业生态:VC投资人重新评估“横纵向”赛道机会 (59:19 - 1:01:35)
- “横向”AI创业公司 (59:28 - 1:00:06)
- 追求面面俱到,无针对性行业或场景。
- 资本市场重新评估前景和估值。
- “名人创业”易陷“高开低走”、“杀鸡用牛刀”困境。
- 出路:成为平台,搭建生态系统。
- “纵向”AI企业 (1:00:41 - 1:01:35)
- 专注于细分领域或特定场景。
- 易建立差异化竞争优势。
- 解决方案需有质的飞跃。
- 细分领域累积新数据、新智能是护城河。
- 专才胜于通才,“纵”强于“横”。
十二、梁文峰与幻方成长史:从量化基金到AI公司 (1:04:41 - 1:13:19)
- DeepSeek背景 (1:04:41 - 1:05:05)
- 脱胎于幻方量化,有8年AI积淀。
- 梁文峰简介 (1:05:05 - 1:05:37)
- 1985年出生,数学天赋。
- 浙江大学电子信息工程专业,专注机器视觉研究。
- 2008年金融危机,看到量化交易机会。
- 幻方量化成立 (1:05:56 - 1:07:07)
- 2015年成立,专注模型算法革新。
- 2015年A股波动,量化基金试水机会。
- 与徐进共同创办。
- 管理规模飙升。
- 梁文峰对AI的执念 (1:07:07 - 1:08:17)
- 幻方更像AI公司,副业量化交易。
- 2016年推出第一个AI模型,首次使用GPU生成交易仓位。
- 2018年明确以AI为核心发展方向。
- 算力挑战 (1:08:25 - 1:08:56)
- 2019年自主研发深度学习训练平台“萤火一号”。
- 2021年构建“萤火二号”。
- 2022年下场做AI大模型。
- DeepSeek独立 (1:08:56 - 1:09:12):2023年5月,技术部门中做大模型的团队独立。
十三、全中国VC都错过的“稍纵即逝”投资窗口 (1:09:19 - 1:11:22)
- DeepSeek融资尝试 (1:09:19 - 1:10:02) - 2024年5月短暂外部投资窗口。 - 梁文峰放弃对外融资。
- VC投资环境 (1:09:40 - 1:10:52) - VC苦于业绩难题,不敢投资高风险项目。 - 基础大模型投入大,竞争激烈,风险高。 - 美元VC追捧明星创始人背景公司。 - 人民币VC更不可能投资基础大模型。
- DeepSeek融资困境 (1:10:52 - 1:11:22) - 量化基金背景,跨界,创始人时间分配不明确。 - 路线图短期难看到商业模式。 - 中国VC喜欢更快赚钱的闭源模型和应用。
十四、幻方的企业文化与初心(1:13:51 - 1:17:51)
- 组织架构和企业文化 (1:13:51 - 1:14:02)
- 顶住压力,坚定投入AI。
- 本土班底起家,独自摸索。
- 团队特点 (1:14:15 - 1:14:39)
- 国内顶尖高校计算机专业应届生或在读博士生。
- 梁文峰身先士卒,懂技术,亲自参与写代码。
- 扁平灵活的团队与Deepseek特殊文化(1:16:41 - 1:17:31)
- 团队非常年轻,平均年龄只有28岁。
- 鼓励内部形成不同主题的技术小组,自由交流合作。
- 内部氛围宽松,不采用KPI,OKR考核方式。
- 类比早期OpenAI(1:17:31 - 1:17:51)
十五、总结与展望 (1:18:29 - 1:20:33)
- DeepSeek的创新启发硅谷 (1:18:41 - 1:19:25)
- 技术创新和工程创新。
- 盘活硅谷AI大战,带来紧迫感。
- Yann Lecun的发言 (1:19:31 - 1:19:53)
- 硅谷存在“错位的优越感”。
- 大量有才华的人参与分享,科学技术进步更快。
- 未来AI格局 (1:19:53 - 1:20:04)
- 开源与闭源路线之战。
- 算力之战。
- 大模型和小模型之战。
- 应用之战。
视频脚本整理
一、引言:AI市场的搅局者——DeepSeek (0:00 - 2:51)
陈茜(主持人): 今天我们来深度聊聊 DeepSeek,这家来自中国的初创公司。最近AI圈子里都在说,DeepSeek 简直是搅局者,甚至有人说“我们竟然被DeepSeek打败了?”
陈茜: 2024年12月底,中国幻方量化旗下的人工智能团队发布了6700亿参数大语言基础模型DeepSeek V3。紧接着在2025年1月20日,开源了基于V3的两款推理模型 DeepSeek-R1-Zero和 DeepSeek-R1。一周之后,DeepSeek趁热打铁,又推出开源多模态模型Janus。
陈茜: DeepSeek之所以震惊全球AI届,是因为它用难以想象的低成本,直接得到了不输OpenAI推理模型o1太多的性能。这意味着,它可能颠覆AI大模型的发展范式,影响GPU算力市场,改变AI初创企业生态。
陈茜: 2025年1月底,在达沃斯论坛上,微软CEO Satya Nadella以及 Scale AI创始人Alexandr Wang的发言,直接将DeepSeek推到风口浪尖。
(视频片段 - Satya Nadella): 我们必须高度重视中国在人工智能领域的发展。
(视频片段 - Alexandr Wang): 我们发现,作为中国顶尖的AI实验室,DeepSeek开发的模型实际上表现最为出色,或者说,已经与美国最优秀的模型处于同一水平线。
陈茜: 这直接导致了1月27日美股市场中,英伟达重挫17%,蒸发市值5600亿美元,创下美国上市公司单日损失纪录。
陈茜: 我们的评论区和邮箱收到了无数人让我们聊DeepSeek的要求。所以整个春节期间,我们硅谷101团队也没闲着,组成了一支五人小分队,进行了数十人的嘉宾采访,想从技术、资本、市场等等多个纬度,聊聊DeepSeek带来的影响。
陈茜: 首先,技术方面,DeepSeek的创新到底在哪里?
陈茜: 第二,DeepSeek对接下来AI发展会带来如何影响?包括对OpenAI、Anthropic这样的闭源公司,和Meta这样的开源AI公司,以及对英伟达这样的算力提供方,还有对开发应用和创业生态的影响。
陈茜: 第三,我们来试图复盘一下,DeepSeek 为什么会是一家量化金融公司孵化出来的?幻方是一家什么样的公司?
陈茜: 在我们做DeepSeek的研究中,发现产业中依然有一些非共识和巨大争议,包括对DeepSeek模型“蒸馏/套壳”、所谓“数据盗窃”、成本估算、算力提供,还有安全性能的一些攻击和指责的观点。我们这个视频也试图收集业内人士的看法,抛砖引玉一下,希望提供一个供大家理性探讨和交流的空间。
陈茜: 另外说一点,我们采访的不少嘉宾英文是母语,或者工作语言主要为英文,所以会有中英夹杂的情况,请大家多多包涵。
二、DeepSeek V3架构创新:MoE与MLA技术解析 (2:56 - 9:01)
陈茜: 抛开DeepSeek面临的众多争议不讲,在硅谷的共识是,这个又便宜又好的模型,确实是有扎扎实实的创新在的。这样的创新并不是技术创新,而更多的是工程上的创新,让AI大模型训练和推理变得更高效、更便宜。
陈茜: 首先我们要理清一下,DeepSeek目前发布了三个更新:分别是6700亿参数的大语言基础模型DeepSeek V3,使用无监督数据;借助增强学习方式,在数学和代码专业问题上微调得到的推理模型DeepSeek-R1-Zero;以及在DeepSeek-R1-Zero基础上,混入更多带有标签的监督数据,提高模型综合能力而得到的DeepSeek-R1。
陈茜: 我们先来看看DeepSeek在基础大模型V3架构上的创新。DeepSeek在2024年5月发布的V2模型中就已经介绍了两项主要的架构创新:混合专家结构(MoE)和多头潜在注意力机制(MLA)。而这两项技术在随后发布的V3模型中,体现出的效果更加明显。DeepSeek声称,V3模型训练耗时278.8万个H800 GPU小时,按每GPU小时2美元租赁成本计算,训练成本总共只需要557.6万美元。
嘉宾(AI工程师): (DeepSeek V3) 里边的重要的点的话,我认为基本上都在efficiency(效率),就是说,这种模型架构的效率上的提升。我觉得在V3里面的话,有两个比较重要的工作,一个是MoE。以前的话你会发现不同的Expert(专家)它的load balance(负载均衡)做的不好,所以当你把它分散到不同的load节点上的话,它的负载均衡会有问题。所以(DeepSeek)它们在这一点上做了一个这种负载均衡的优化。同时在第二点上是说,它在这种多头潜在注意力(MLA)层级的话,它要节省这个 KV cache(Key-Value缓存),所以它提出了一个 Multi-Head Latent Attention(MLA)这样一个方法,其实一个核心的思想是减少它的KV cache,其实也是在提高这个架构的efficiency,就是它的性能。然后这两点作为它的核心的这样的一个创新,然后使得它在一个600b(6000亿参数)的这种Megatron级别的这种大模型上,然后它的基础模型的表现其实已经挺不错的了。
陈茜: 如果是对AI大模型没有基础的小伙伴们,是不是听不太懂?没关系,我们记住里面的两个关键词:MoE和MLA。我们硅谷101小分队试图来简单解释一下。如果已经是AI业内人士或者工程师可以跳过这段。
陈茜: 要理解MoE(混合专家结构),我们可以打个比方,它就像一家餐厅里的一群顶级厨师,每个厨师专攻一道菜,而一位聪明的服务员会根据顾客的点菜需求,将任务动态分配任务给最擅长那道菜的厨师。比如我既想吃麻婆豆腐,又想吃提拉米苏,那么就可以由一位川菜师傅和一位甜点师傅分别做这两道菜,而同时其他的厨师则可以休息。但是在传统的架构上,则更像是一位全能型厨师,它什么菜都会做,什么菜都可以做,但这样一来,消耗的时间和精力也就更高。
陈茜: 所以,MoE(混合专家结构)这种设计大模型的方法,核心就是通过动态路由机制,将输入数据分配到不同的子网络(或者说专家)进行处理,每次应用的时候,只会激活部分的专家,这样就可以提高计算的效率,降低训练和推理的成本。最后,在6700亿参数中,DeepSeek V3只需要激活370亿参数。
陈茜: 值得一提的是,这并不是DeepSeek原创的方法,Mixture of Experts(MoE)五年前就有了,甚至可能更久。
嘉宾(AI研究员): 其实,它最早的一些应用甚至并不在LLM领域,而是被用于其它模型,尤其是在谷歌的广告投放或广告预测方面。我认为这里的一个重大变化是,其它实验室并不需要采用这种方法,因为他们一直能够稳定提升模型性能,并没有遇到类似的资源限制。而DeepSeek团队面临的情况不同,他们的资源限制相当严格。
陈茜: 不过,因为混合专家系统是在建立一个“专家团队”,专家间的交流也至关重要。这就是DeepSeek团队在原有技术基础上创新的点。
嘉宾(AI工程师): 我们的采访嘉宾说,DeepSeek“让正确的人完成了正确的合作”。要真正优化这一点,并实现这样的成果,你需要软件工程师和硬件工程师密切配合,分析网络日志,监测网络通信量和延迟的影响,并进行精细的协调。而我认为,这正是关键所在。在更大的公司里,当有这么多人协作时,要做到这种精准配合并不容易。把整个流程像舞蹈一样编排得当,最终实现这样的结果,是一项巨大的挑战。
陈茜: DeepSeek另外一个架构上的创新叫做多头潜在注意力,英文是Multi-Head Latent Attention,简称MLA,这解决了内存限制问题。V3又在此基础应用了多token预测(MTP)技术,增加了注意力模块,以预测接下来的多个token,而非单个token,这在训练过程中提高了模型的性能。
陈茜: 好的,在说完了V3基础模型之后,其实真正让DeepSeek火起来的发布是之后的两个推理模型 DeepSeek-R1-Zero 和DeepSeek-R1。因为这是直接对打 OpenAI的o1推理模型的。那么我们接下来看看这两个模型上的创新点。
三、从R1-zero到R1:强化学习和GRPO算法 (9:07 - 14:10)
陈茜: 由于推理过程的严密性,推理模型更擅长于解答有标准答案的问题,比如写代码、解数学题等等。在R1出现之前,OpenAI的o1是市场上唯一一个推理模型。但DeepSeek“出圈”的另一个关键,还是因为R1不仅进行思考,还详细的列出了思考过程。而DeepSeek更大的创新点在于,R1的训练上,它使用了无需任何人类反馈的强化学习。
陈茜: 在这里,我们要先提到R1的前身 DeepSeek R1-Zero。DeepSeek团队提到,训练R1-zero时,他们用了纯粹的强化学习方法,目标是探索大模型是否能够在没有任何监督数据的情况下发展出推理能力。
陈茜: 那什么是强化学习呢?简单来说,强化学习方法就是给机器大量数据和一个奖励函数(reward function)。我们熟悉的AlphaGo,就是通过强化学习完成了从模仿人类到打败人类的超越。在这一阶段,它完全摒弃了人类的棋谱,反而是 在不断的自我对弈中优化策略。
陈茜: 然而,在目前大模型的训练中,还是以基于人类反馈的强化学习 reinforcement learning from human feedback(简称RLHF)为主。在这种训练中,虽然人类会告诉模型哪种选择是更优的,但也有众多弊端,包括人类反馈的不准确性和偏见、奖励模型的泛化能力差,以及策略优化的困难等等。
陈茜: 那么DeepSeek做了什么呢?在V3这个基础模型之上,DeepSeek采用了一个叫做GRPO的强化学习算法,提高模型的推理表现。
嘉宾(AI工程师): GRPO的名称是Group Relative Policy Optimization,群体相对策略优化。OpenAI的模型训练方式是直接把所有数据喂给模型,也就是提供一整套问答数据,让模型接收所有信息进行训练。而DeepSeek的模型训练方式采用了一种强化学习技术,叫做GRPO(群体相对策略优化)。这意味着DeepSeek不是直接提供所有问答数据,而是让模型基于已有知识进行优化,以获得更好的结果。这种方法极大地提升了训练效率,同时也大幅降低了训练成本。
陈茜: OpenAI在此之前,提出了另一个强化学习算法 PPO,或者叫近段策略优化。这种算法通过所谓的Critic来衡量某个行动对于当前策略的优劣,提供了更稳定的优化效率。但是GRPO则去掉了Critic的部分,直接优化策略本身,减少成本。
嘉宾(AI研究员): 但有意思的是,GRPO也不是新技术,甚至被业内人士称为 “比PPO要退化的算法”。但DeepSeek就是用这种方式,将大规模强化学习做得更高效了。因为说句实话,GRPO就是那个 DeepSeek用来训练RL的那个模型的算法,其实并没有什么高深,它是从某种意义上来说,是PPO的一个退化,并不是进化。它只是用了GRPO的方式去解决算力的问题和 和Computation Efficiency(计算效率)的问题。所以从某种意义上来说,(DeepSeek)它用了一个比PPO还退化一点的GRPO的算法,去解决大规模RL运算的这个问题。
陈茜: 再回到强化学习本身,之前我们提到,推理模型擅长解答有固定答案的问题。训练推理模型也有一大好处,就是我们能够直接去验证它的答案。DeepSeek团队给了 R1-Zero一系列数学、编程和逻辑问题,并设计了两个奖励函数,一个是为了验证标准答案,另一个则是确保输出连贯、格式规范。DeepSeek团队让模型提供多个答案,再用这两个奖励函数给它打分。
嘉宾(AI研究员): DeepSeek团队发现,通过这样的训练,只要给模型提供正确的激励,那么AI就可以自动找到解决问题的策略和思路。最后它展示了,就是特别是在R1 Zero,纯粹用这样的知道答案以及知道可以验证的方式,就可以通过强化学习训练出很好的reasoning(推理)的能力。然后他这次并没有说具体用了多少,但是因为它展示了,用了多少步和用了多少数据,所以大家其实可以算出来他大概会用多少钱。我觉得非常非常多的公司其实现在已经开始验证,而且这个问题的方式已经被一些用更小的模型在更简单的数据上做了一些验证,大家的确可以观察到,就是这个方式的确是有效的,所以我觉得接下来会激发非常非常多的创新。
陈茜: 但尝试的过程中,可能遇到一个问题,也就是人类无法理解完全利用强化学习训练的模型输出的内容。DeepSeek自己也提到,R1-zero的可读性很低,一个回答里甚至会出现多种语言。所以DeepSeek团队最终还是创建了新的监督微调(SFT)数据集,重新训练V3基础模型,最终的结果就是今天的R1。
陈茜: 而R1的成功,证明了利用无监督强化学习训练推理模型的可行性,以及通过少量的算力达成提升模型性能的方法。从高校团队到初创公司,再到大厂玩家,都在这里看到了新的机遇。
陈茜: 而对于将潜在颠覆 AI大模型范式的DeepSeek来说,也在全球AI届引发了一些争议,包括DeepSeek是不是用了 OpenAI的数据来训练模型,或者蒸馏了/套壳了OpenAI的模型?DeepSeek号称的500多万美元成本是真的吗?用的到底是英伟达的什么卡?以及潜在的安全漏洞,都让DeepSeek在另外一面,面临着不小的质疑。对于这些问题,我们也与业内人士聊了聊。
四、DeepSeek争议点 (14:16 - 26:35)
陈茜: 首先,DeepSeek面临的一个指控是“模型蒸馏”。
嘉宾(AI研究员): 有大量证据表明,DeepSeek在这里所做的事情,是从OpenAI的模型中提取知识进行蒸馏。我认为OpenAI对此并不会感到高兴。
陈茜: Fox和《金融时报》等媒体报道,OpenAI找到了DeepSeek在训练模型的时候,使用他们数据的证据,侵犯了OpenAI的知识产权。这个过程,在业内被叫做“蒸馏”。
嘉宾(AI法律专家): 蒸馏基本上意味着,DeepSeek大量调用OpenAI的API,生成大量结果,然后在这些结果的基础上进行训练。这样一来,DeepSeek并不需要直接访问OpenAI的模型。这种方法被称为黑箱蒸馏(Black-box Distillation),它不需要直接访问更大的模型,也能显著改进小型模型的表现。目前确实存在一些指控,但要证明DeepSeek是从OpenAI蒸馏而来的,OpenAI需要提供API使用情况的证据。例如,可能有一些可疑的用户,在短时间内向OpenAI发送大量API请求,或者DeepSeek的模型性能与OpenAI的模型高度相似。此外,如果DeepSeek生成的输出或代码与OpenAI的结果极为相近,这些都可能作为证据表明,DeepSeek可能进行了蒸馏。
陈茜: 但我们和硅谷科技从业者们聊天的时候,大家会认为,蒸馏是AI开发人员常用的一种做法。
嘉宾(AI工程师): 他们通过使用更大、能力更强的模型的输出,在较小的模型上获得更好的性能,从而以更低的成本在特定任务上获得类似的结果。在业内,尤其是学术界,研究人员经常使用蒸馏,有时整个训练数据集可能都是GPT输出的内容。老实说,我对此并不会感到特别惊讶。事实上,如果现在还有人在做大规模模型训练,却完全没有直接或间接利用闭源模型来生成训练数据,我才会觉得意外。不过,我更感兴趣的是,他们如何证明自己掌握了确凿的证据。我认为,要真正证明这一点,其实是相当困难的。
陈茜: 那么,OpenAI为什么会认为DeepSeek使用这种方法,则是侵犯了他的利益呢?这就要提到OpenAI的服务协议,其中规定不得将OpenAI模型产生的数据用于开发OpenAI的竞品。但这究竟意味着什么,却很是模糊。
嘉宾(AI法律专家): OpenAI的服务条款规定,用户不能利用其模型生成的输出来构建竞争产品。不过服务条款(Terms of Service)与许可证(License)是不同的,后者本质上是组织之间的合同。如果我违反了OpenAI的服务条款,OpenAI可以取消我的账户访问权限,而许可证则规定了下游产物的使用方式。这里的关键在于一个在AI领域并不清晰的概念,比如“竞争对手”究竟如何定义?
陈茜: 竞争对手的定义不清楚,OpenAI要证明 DeepSeek蒸馏了模型,或者更严重的指控“盗窃”了他的数据更困难。
嘉宾(AI法律专家): 因为OpenAI目前也面临着包括《纽约时报》等媒体在内法律诉讼,指控OpenAI未经许可,用了《纽约时报》的内容,侵犯了知识产权。困难之处在于,想要确切证明存在蒸馏行为是非常困难的,即使有各种迹象,也很难拿出确凿证据证明 DeepSeek确实对OpenAI进行了蒸馏。除非OpenAI公开自己的代码、模型架构以及模型权重,否则我们无法明确断定。
陈茜: OpenAI现在陷入了两难境地(Catch-22),他们想指控DeepSeek进行蒸馏,但同时又无法在不损害自身模型保护的情况下,拿出直接证据。更具讽刺意味的是,OpenAI自己过去曾被指控在训练模型时使用了受版权保护的数据,而现在他们却站出来指责DeepSeek窃取他们的数据,这整个情况在很多方面都显得讽刺且带有一定的虚伪性。
陈茜: 我觉得这里的争议其实是,在AI大模型业界,规范和法律并没有及时追上,什么是不合规、什么是不合法、什么是不合理,现在的边界都很模糊,定义都很含混。
陈茜: 在硅谷,很多人把OpenAI和DeepSeek类比为“专利药”和“仿制药”的区别。不知道大家赞不赞同这个类比,但专利药和仿制药之间的法律和规则是非常清晰的。专利药有特定的专利保护期,在保护期失效之后,才会是仿制药的机会,这样又保护了大药企对研发投入的利润保证,又在几年后开放给仿制药公司,制造成便宜的药品造福大众。但目前AI产业各种规范还未建立,大小公司们都在野蛮生长。所以我们也期待看到进一步法规和业界标准的完善。
陈茜: 另外对DeepSeek的一个争议,就是成本了。
陈茜: 硅谷对DeepSeek的成本讨论这么大,是因为V3模型训练只用了557.6万美元。注意,这并不是DeepSeek实际花的钱,而是用278.8万个H800GPU小时,按每GPU小时2美元租赁成本计算,这样算过来的。但这个成本依然是无法想象地低。
陈茜: 在硅谷这边流传很广的一篇来自Semianalysis的分析就认为,DeepSeek的预训练数字远不及模型实际花费的金额。光是在DeepSeek的硬件支出,就远高于5亿美元。此外,还有模型开发过程中,需要花费大量资金来测试新想法、新架构想法和试错。比如说我们在第一章提到的多头潜在注意力(MLA),这个关键创新就花了几个月的时间开发,耗费了整个团队的人力和GPU小时,都得算进去。
陈茜: 所以有一些指责认为,一些媒体过度放大了这个数据,或者说DeepSeek团队太用这个“一次性训练”的数据做噱头了。因为训练一次模型的费用不是烧钱大头,还是此前的各种实验、失败、开发、人力,这些加起来的成本才有意义。
嘉宾(AI投资人): 一般来说,H100的租金大概在两点几美金,2.5美金左右,如果你去就是retail租的话。但它如果是那么大一个集群的话,确实可以再便宜一点。所以literally你就租GPU这个硬件去做这件事情,就是这个价格。但是事前的试错成本是非常高的,大多数的成本都不在那一次训练上面,而是在前面大量的试错上面。所以我觉得这个对比本身是有一定价值的,但是在训练这件事情上面,去这样对比,其实价值不是很大。
陈茜: 我们也看到,外界对幻方和DeepSeek到底用了什么GPU的卡,是H100还是H800还是A100,众说纷纭,都有不同的猜测。比如说SemiAnalysis说,他们认为DeepSeek有5万张的英伟达Hopper GPU,包括1万个H800单元、1万个H100单元,以及额外购买的H20芯片。这是引发一些对美国政府进一步加强英伟达GPU出口管控的呼声。这些目前只是外界的猜测,我们无法证实真实性。
嘉宾(Bill, AI工程师): 但Bill的观点其实很有意思,他说DeepSeek到底用了什么卡,成本到底是多少,其实都不是最重要的重点。重点是,DeepSeek的技术创新真的带来了推理端的价格大幅下降。而AI业界需要认识到这个范式的重要性,并让这个范式全面降低AI的推理价格。我觉得更重要的是去研究一下它的推理成本。有一件事情我觉得大家很少提到,就是DeepSeek的模型稀疏度(sparcity)非常高,它在进行推理(inference)的时候,只有350亿还是370亿的参数被激活(activate)。也就是说它只有1/20的参数在训练时真正被激活,而大多数的大模型在推理时,真正被激活的参数量是很大的,远高于DeepSeek。所以DeepSeek的训练成本很低,但这不是一个主要卖点(main selling point)。我认为它在推理时,激活的参数量低,可能是一个更大的卖点(selling point),因为这是一个持续的消耗。当一个模型被部署出去以后,每一次推理都会产生消耗,而训练是一次性成本,完成之后就结束了。如果说training(训练)成本就像一次性买一个大件要花很多钱,那么inferencing推理成本就像是 subscription订阅模式一样,你得不停花钱。
陈茜: 所以Bill认为,从财务的角度来说,Inferencing成本可能远比训练成本重要,而对于开发者和应用端,这才是一个改变游戏规则的事情。
嘉宾(AI工程师): 所以如果DeepSeek能够将激活参数控制在300多亿,那就意味着它整个推理所需要花的时长以及计算复杂度就会缩小很多,那虽然它的整个存储,就是GPU存储的量是不变的,就是你要加载这个模型还是需要这么多的GPU显存,但是你每一次推理所花的时长就变短了,那你一个单位GPU所可以算力的释放就会变大,所以它推理成本就会下来。所以从这个角度来说,这个算力成本可能是对整个硅谷以及整个未来的推理方向,以及应用层方向的公司最大影响的一个事。
陈茜: 而随着DeepSeek的全球广泛下载和讨论热度,关于模型安全和相关的法律风险,也成为一些开发者关心的问题。
陈茜: 2025年1月底,网络安全公司Wiz公开了一项研究结果,显示DeepSeek将一个关键数据库暴露在互联网上,泄露了系统日志、用户提示,甚至用户的API身份验证,总计超过100万条记录,任何人都可以访问。Wiz的调查报告说,这种访问级别意味着对DeepSeek自身及其最终用户的安全构成了严重风险。黑客攻击者不仅可以检索敏感日志和实际的纯文本聊天消息,还可以使用查询直接从服务器窃取纯文本密码和本地文件以及专有信息。Wiz已经将这个安全漏洞报告给了DeepSeek团队,但也让一些人担心,DeepSeek这样的小团队,或许还没有做好去服务全球量级用户的准备。
嘉宾(AI安全专家): 虽然用户和开发者不一定因为这样的安全漏洞而放弃使用DeepSeek,但这可能会触发一些安全监管。(DeepSeek在全球)的采用情况已经非常广泛,我们并没有看到来自国际上的(AI模型)安全问题事件对用户习惯产生显著影响。(安全问题)可能会对(政府)监管产生影响,我认为,国际上更多的安全问题是从监管角度出现的。
陈茜: DeepSeek在1月27日宣布,由于遭受大规模的恶意网络攻击,公司一度暂时限制中国大陆手机号以外的注册方式。所以,如何应对这样的网络安全问题,也将是DeepSeek团队需要吸取经验的议题。
陈茜: 接下来,我们说说DeepSeek对全球AI产业带来的影响,包括最领先的开闭源模型们。
五、对OpenAI影响:开启新融资、面临被迫降价 (26:42 - 33:42)
陈茜: 说完了业界对DeepSeek创新上的认可,那么现在压力毫无疑问就给到硅谷的这些,曾经以为是领先者的大模型公司了,无论是闭源还是开源公司,OpenAI、Anthropic、Meta、Mixtral等等。我们先来说闭源公司们的反应。
嘉宾(AI行业分析师): 这对OpenAI和Anthropic来说无疑是当头一棒,因为DeepSeek表明,AI领域并不存在真正的护城河,Anthropic和OpenAI将很难证明自己的估值和定价合理。
陈茜: DeepSeek对闭源模型直接的冲击就是价格。原因很简单,如果有更便宜,但是性能差不多的大模型,还是开源的,开发者和公司们会怎么选择这是毫无疑问的。
陈茜: 根据Sensor Tower的数据,2025年1月26日,DeepSeek登上美国免费应用榜单第一名,之后在全球范围内持续火爆,包括在印度等140个全球市场中的移动应用下载量排行榜上都位居榜首。数据显示,在日活用户上,DeepSeek已经达到了ChatGPT的23%,而在媒体下载量上,已经超过了ChatGPT。
陈茜: 而这对OpenAI来说,直接的打击就是技术领先带来的垄断溢价将面临缩水。
嘉宾(AI行业分析师): 当他们进行推理时,毛利率超过75%,也就是说成本差距在4到5倍之间。OpenAI之所以能赚取惊人的利润,就是因为他们是唯一拥有这种能力的公司。
嘉宾(AI投资人): 我觉得肯定是 (OpenAI)它的商业模式要不要有所调整,第一要不要开源,第二的就是商业模式要如何调整,定价要如何调整,比如说我们现在就是GPT的Pro版本,它之前收费200(美元),是不是要降价?
陈茜: 在DeepSeek火出圈之后,Sam Altman在X上反击说,我们显然会提供更好的模型。
陈茜: 很快,在1月31日,OpenAI发布推理模型o3-mini,并且首次对免费用户提供推理模型。o3-mini的定价为1.10美元/百万输入token和4.40美元/百万输出token,这比之前的o1-mini便宜63%。虽然比DeepSeek的定价0.14美元/百万输入token和0.55美元/百万输出token依然要贵不少吧,但业界普遍认为,DeepSeek R1的性能比o1要稍差一些。而o3作为o1的升级版,目前在性能上是要优于R1的。所以OpenAI的溢价,虽然被DeepSeek带来的压力打下来了一些,但依然有挺高的利润率在。但随着竞争的继续,我们也也很期待价格能进一步下降,这会非常利好整个AI的创业生态、开发者社区和应用公司们。这一块儿我们一会儿来详细讲。
陈茜: 同时,在2月3日,OpenAI发布了另一个新模型 Deep Research,号称能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。OpenAI还与DeepSeek-R1进行了对比,Deep Research在 Humanity’s Last Exam测试中,在专家级问题上达到了26.6%的准确率,创下新高。相比之下,DeepSeek R1模型的准确率是9.4%。
陈茜: 所以基本上,OpenAI这两轮发布,颇有show肌肉的意味,一边说我们也可以降价,同时一边说,我们的模型还是更好的。但不得不说,在OpenAI强硬反击的背后,我们能感受到Sam Altman 与OpenAI所面临的压力。
陈茜: 我们如果稍微站在OpenAI的角度来看,虽然业界对OpenAI的闭源策略各种讽刺,称之为“ClosedAI”,但要承认的一点是,保持前沿科技的技术龙头地位是不易的,基础研究和探索成本需要非常多的资金,因为他们是探索者,需要在砸钱去探路,而后来的追赶者相当于,是站在巨人肩膀上进行路线的优化,从而能省很多钱。
陈茜: 我们在前面提到过,在硅谷很多人把OpenAI和DeepSeek类比为“专利药”和“仿制药”的区别。这个意思是说虽然仿制药用低廉的价格造福了全人类,但专利药背后的多年研发成本,却是大药企去承担的。
陈茜: 而回到OpenAI上来,虽然推理侧的利润很高,但在训练侧却是极其烧钱的。如果推理侧的利润无法承担前面训练侧烧的钱,那么OpenAI的商业模式也就失败了。
嘉宾(AI投资人): 但是你可以想象是Meta、Google他们的资源浪费,其实是肯定是远高于DeepSeek的,因为他们会有大量的各种各样政治在内部,他们也不是只有100个人,他们有上几千个人在那边,搞各种各样的不同不停不一样的花活,所以你很难去直接衡量说,真正的花费多少。那抛开这一切不谈,人力成本可能远高于这一些算力成本。他们(OpenAI)显然是在亏损,因为他们在训练上投入了大量资金,虽然推理本身的利润率很高,但它并不能弥补他们在其他方面的开支。所以,他们确实需要这笔资金,因为收入和利润不仅要支撑他们继续开发下一个产品,同时还需要筹集更多资金。
陈茜: 这也许解释了为什么 OpenAI在连续两场发布会之后,立马开启了新一轮融资。目前有消息爆出,新一轮融资中OpenAI希望筹资400亿美元,将公司估值推到3000亿美元的量级。但毫无疑问的是,在这个时间点融资,即使OpenAI已经得到了软银孙正义投资数百亿美元的承诺,对于剩下的资金缺口,Sam Altman也会面对投资人的各种质疑。
嘉宾(AI投资人): 我觉得有两个事情,一个就是,确实是这种便宜的模型的出现,对吧,他们怎么能应对;第二的话就是一个心态的,所有金融的这个现象,都是跟那个心理学有关,就说如果大家觉得他融不到钱,那这轮融资他就是self procrastination(自我拖延),就这种就是,他越大家觉得他融不到钱就越融不到钱,这个融资就是这么个现象。DeepSeek现象发生,对它融资的话是一个相对来讲是个负面的影响,长期来讲本来也是一个挺难的事。
嘉宾(AI行业分析师): 有趣的是,OpenAI和Anthropic的股票基本上已经停止在二级市场上的交易。在DeepSeek推出后,没人再购买OpenAI或Anthropic这两家公司在DeepSeek之前还是最炙手可热的,每个投资者都想入手它们的股份,而现在交易基本停滞了,没人买也没人卖。而且,DeepSeek让人开始质疑,真的需要那么多资金吗?即使我投入那么多钱,你们的护城河能有多持续?因为Anthropic和OpenAI一直在向投资者讲述的一个故事是,通过大量资金投入模型训练,他们能够建立起对其它公司的巨大护城河。但事实证明,这并不像人们预期的那样稳固。
六、对Anthropic影响:闭源模型玩家面对更大压力 (33:49 - 35:32)
陈茜: 而对于Anthropic来说,DeepSeek带来的打击可能更严重。我们在之前的视频中有提过,Anthropic在2B(对企业端)和 2D(对开发者端)的API上,是非常有优势的,但在2C(消费者端)是比OpenAI的ChatGPT差很多。如此以来,DeepSeek的API价格,直接会对Anthropic带来打击。更何况,目前Anthropic并没有推出任何的推理模型,也就是说,它完全被OpenAI和DeepSeek前后夹击。
嘉宾(AI行业分析师): 我认为对于Anthropic来说,DeepSeek的出现是个重大打击,这对Anthropic非常不利,因为他们本月早些时候,刚以600亿美元的估值,融资了30亿美元。他们肯定还需要筹集更多资金,来继续训练模型。这可能也能解释为什么,Anthropic的创始人 Dario Amodei发布的长文中,言辞对DeepSeek相当不客气,甚至要求美国加强对算力的“出口管制”。这与Sam Altman以及 Meta的Yann Lecun等一众科技领袖们的“欢迎竞争”和承认DeepSeek的技术创新表态非常不一样,也是受到了很多评论区的冷嘲热讽。但毫无疑问,DeepSeek将对Anthropic旗下Claude等模型的更新带来更大的压力,来保证闭源模型的领先性。
嘉宾(AI工程师): 这些闭源的模型它有可能是一直领先的,它要就是闭源,如果还不如开源,那可能就没有意义。但它应该是有这个管理上面的这个优势,它应该是超过开源。如果闭源还不如开源,我也不知道这公司在干什么,对吧,你还不如免费。
陈茜: 接下来,我们再来说说DeepSeek对开源模型和社区的影响。
七、对Meta Llama影响:进入War Rooms模式 (35:41 - 37:38)
陈茜: 虽然很多人说,DeepSeek代表着开源模型的一次大胜利,但是在开源模型自己的竞争格局中,它也是给行业领头羊们带来了非常大的压力。比如说Meta。
陈茜: 根据The Information的报道,DeepSeek R1发布之后,Meta就立刻进入了紧急状态,成立了四个“War Rooms”作战室。这是因为Meta马上要发布Llama4开源模型,如果Llama4落后于DeepSeek,这对公司作为 “开源模型的引领者”的地位受到很大威胁。
陈茜: 对于Meta来说,最开始选择以开源的路线来加入大模型战局,而不是像谷歌,OpenAI和Anthropic选择闭源,是因为想参照当年谷歌开源安卓系统的模式,并不从系统本身赚钱,而是等生态发展起来之后,从广告和Google Play等应用上赚钱。如今对于Meta也是一样,不指望开源的Llama赚钱,但希望Llama是最领先的开源大模型,之后从生态和应用上赚钱。所以,即使比不上最强闭源模型的能力,至少Meta不能在开源模型能力上掉队,这也是为什么Meta目前必须进入“War Rooms”状态的原因。
陈茜: The Information的报道也指出说,此前Llama在跟OpenAI等闭源模型竞争的时候,已经有价格上的劣势了。比如说虽然Meta的模型是免费的,但实际上,运行起来会比OpenAI的模型更昂贵,部分原因是OpenAI可以通过批量处理客户的数百万个queries(查询)来降低价格,但Llama的使用者却没有办法通过这种方式来获得降价。而如今DeepSeek的价格更低,将给Meta带来进一步的价格压力。
陈茜: 但是好消息是,Meta还没发Llama4。我想这其实也是开源的美妙之处,它不但带来了竞争,但也带来了互相学习、反馈和进步的机会。
嘉宾(AI研究员): 而业内人士对我们表示,这次DeepSeek引起非常强烈反响的另外一个原因是,它开源得比Meta要彻底更透明。我觉得从两个方向上对比,就是Meta开源的时候,其实它开源的东西普遍是落后于业界的。比如说Meta,它采取了一个 dense model(稠密模型),然后Meta开源的时候,它的训练效率其实也比较,至少根据它的数据来说,它训练的效率也比较低,然后它的表现离当时最好的模型其实也有些差距。Meta开源当中的各种限制,我个人觉得那些更像是大公司病,就是在一个巨大的公司当中,大家各个部门扯皮,然后最后得出来的一个比较平衡的点。DeepSeek 这次,因为首先它开源的是一个业界领先的模型,同时它technical report的详细程度远远超过比如像OpenAI或者Anthropic technical report详细程度,所以业界其实是非常开心的,就是没有提出太多其他的问题。当然它有些,第一它的代码本身没有开源,然后它的训练数据集没有开源,但是因为已经是一个就是领先的模型,然后同时technical report(技术报告)的细节比之前其它领先模型的技术细节多非常非常多,所以我觉得业界开源的人对于 DeepSeek的开源都非常满意的。
陈茜: 所以接下来,Meta原本在第一季度发布的Llama4表现如何,我们也拭目以待了。
八、对Mistral影响:开源商业化瓶颈与创新困境 (39:06 - 42:01)
陈茜: 在硅谷,我觉得非常多的 AI从业人士和科技领袖都同意,DeepSeek这次带给大家的震撼代表了开源的胜利。但同时很多人也强调,对于开源模型要保持领先,特别是针对闭源模型,要持续的不掉队,保持创新、不断推出能与最好闭源模型比肩的产品,还是非常难的。不光在资源上,还有在人才上,在商业变现上,都有着很大的挑战。
陈茜: 其中的一个例子就是法国AI开源模型公司Mistral,一度以70亿参数的小模型轰动业界。这次DeepSeek的技术创新中的MOE(混合专家模型),也是由Mistral当时大力推行的。但很可惜近一年时间,Mistral在技术上也慢慢掉队,而公司也面临商业化的难题,甚至传出需要被收购的声音。
嘉宾(AI行业分析师): 我对开源公司通常持较为怀疑的态度,因为它们必须找到变现的方式,无论是通过托管服务、提供高级功能,还是开放对最新模型的访问,最终都得以某种方式盈利。一个典型的例子就是Mistral,这家欧洲AI巨头,被认为是欧洲最优秀的AI公司,他们最初声称自己是完全开源的,但如果你现在去看Mistral,他们最好的模型大多已经不再开源,甚至连研究的很多细节都不再公开。我认为,开源公司若想维持盈利,走向这种模式几乎是必然的。
陈茜: 不幸的是,DeepSeek可能也会走上这条路,以确保自身的可持续发展。DeepSeek实际上并没有足够的能力来提供模型服务,他们已经停止了新用户注册,对大多数人来说,现在几乎无法使用它,因为用户需求过于庞大,而他们没有足够的GPU来支撑模型的运行。即使你相信我们的研究数据,他们拥有5万块GPU,其中一部分用于研究,另一部分用于对冲基金,他们的GPU数量和计算能力仍然远远不足以支撑大规模模型服务。
嘉宾(AI行业分析师): 所以,DeepSeek的成本确实更低,而OpenAI赚钱的原因之一,就是其庞大的盈利能力。但DeepSeek是否通过API盈利,目前还不清楚,我个人认为可能并没有。
陈茜: 而对于DeepSeek来说,也许商业化并不是他们的首要任务,因为他们还有幻方这样的母公司的资金作为撑腰,之后也许也会走融资的模式。他们之前也尝试过融资只是不顺利,这个故事我们在之后讲幻方的DeepSeek成长史的部分会提到。非常讽刺,现在应该会有不少投资人和投资方去主动联系他们了。
陈茜: 所以,在资金和人才都不是问题的情况下,DeepSeek能否在开源路径中保持领先,从开源社区中得到技术的反馈和反哺来进一步提升创新,这是接下来的关键。
陈茜: 接下来,我们来聊聊DeepSeek对一个大家都非常关心的市场的冲击:AI算力。
九、AI算力市场冲击:DeepSeek是否“绕过”了Cuda? (42:12 - 52:22)
陈茜: DeepSeek对英伟达的市场情绪冲击在1月27日是最明显不过的了,但之后跌幅已经止住了,并且在过去的几天股价开始缓慢回升。
陈茜: 其实我们也听到市面上有两种声音。第一种声音是,DeepSeek带来了模型训练和推理的新范式,以后我们不需要这么大量砸钱去买英伟达最前沿的GPU芯片了,所以算力市场的故事已经崩塌。第二种声音是,DeepSeek能让整个生态的算力成本都得到进一步降低,所以会有更多的玩家入局,会有更多的应用生态崛起,这就意味着更多的算力需求,GPU算力市场其实更大了,反倒是利好英伟达的。
陈茜: 目前华尔街和硅谷的一二级投资市场,其实是对第二种逻辑达成了共识,这也是为什么英伟达股价止跌在这个价位。截至我们写稿的时候,处于2024年10月的股价水平,依然处于近年的高点。
嘉宾(AI投资人): 它其实短期只是说,这个模型具体的训练成本会降低,但是因为模型训练成本降低了,并且它又是开源的,它会释放更多的整个生态的对这个模型的使用应用,包括新的开源社区,这些开发者也会去复现这个模型,所以整体上来讲,我觉得一个降低的算力成本,反而会刺激不管是下一代模型的训练,还是开源模型的训练,还是它的整个应用场景,都会一个迎来一个大爆发。
陈茜: 那问题又来了,在27日英伟达股价大跌之后,如果真的按这个逻辑来说,是因为二级市场情绪过激反应了,其实会推高整体算力的需求量,所以DeepSeek是利好英伟达股价的,那么为什么我们没有在过去一周看到大幅度的英伟达股价反弹呢?这是因为在第二种逻辑之下,还有一些尚未验证、没有达成共识的部分。而这部分,也恰恰是由DeepSeek的模型创新所造成的。这就是,DeepSeek能击垮英伟达最强的护城河CUDA吗?
嘉宾(AI工程师): 英伟达它其实是有两个最大的壁垒,一个是它InfiniBand,也就是它那个芯片互联,然后另一个是CUDA,就它那整个一套调用GPU的系统。它跟AMD这些其它芯片公司,其实已经不是在一个层面在竞争的,因为其他人都是在就在争,我单张卡我的性能怎么样,但是英伟达其实争的是,我互联的这个技术怎么样,然后我的这个软件调用,这个生态的维持是怎么样。
陈茜: 所以英伟达真正是这两个壁垒。最近很多媒体和文章以“DeepSeek已经绕过CUDA”为标题,再度引发市场对英伟达GPU需求的恐慌,和对英伟达护城河是否坚固的质疑。对此,我们也几乎把这个问题抛给了所有我们采访的技术派的嘉宾,大家的看法其实挺一致,这类新闻标题是不准确的。DeepSeek并没有绕过CUDA,只不过,英伟达的护城河确实因为DeepSeek,松了那么一丢丢。我们来详细展开讨论一下。
陈茜: 这类新闻的结论是,DeepSeek的创新可以:第一,直接在英伟达GPU的低级汇编语言PTX上进行优化;第二,它可以同时通过对FP8计算和存储的支持,让DeepSeek团队实现了加速训练和减少GPU内存使用。所以结论,这意味着业界之后可以绕过CUDA生态,用其它GPU也能实现高效训练目的,英伟达的护城河不存在了。
陈茜: 我们的嘉宾就这两个说法进行了一些纠正和补充,主要观点有三个。
嘉宾(AI工程师): 第一,DeepSeek没有绕过CUDA,它并没有完全绕过CUDA这个生态系统,就是说它可以直接去调用 CUDA底下的,不是刚你说那个很高层那个API,它可以直接去调用PTX,也就是在指令集(instruction set)上再高一层的指令集,并且在这一层直接进行优化。但是这个也是挺大的一个工程,它并不是说就是任何一个小公司都有能力去做这件事情。
陈茜: 简单来说,英伟达的护城河是CUDA的生态,而不是单单CUDA本身。而PTX是CUDA生态的一环,用于连接CUDA高级语言代码和GPU底层硬件指令,但仍然是英伟达GPU架构中的技术。所以DeepSeek“绕过CUDA”这个表述在很多人看来是不准确的。这是第一点。
陈茜: 第二点,很多人在讨论,DeepSeek可以基于PTX进行优化英伟达GPU,业界没有动力大规模改变算力使用范式。是不是说明DeepSeek也可以优化其它GPU和芯片呢?这一点是很可能的。
陈茜: 这就是为什么我们看到AMD迅速宣布将新的DeepSeek-V3模型集成到自己的Instinct MI300X GPU上。但技术从业者告诉我们,DeepSeek团队可以基于PTX进行优化,但这不意味着其它团队也这样的能力和动力,因为编写PTX代码的做法非常复杂且难以维护,对技术人员要求极高,也很难移植到不同型号的GPU。所以第二个观点是,目前来看业界没有动力大规模改变算力使用的范式。
嘉宾(AI工程师): 那一旦CUDA不存在,有一个标准化的开源的生态出来,那可能就出现了一个不同的生态,说AMD的GPU 跟英伟达GPU是一样的,没有什么区别,那这个就对英伟达比较危险。但是我觉得短期内要挑战英伟达还是很难,因为你很难想象说把现在那么多data center(数据中心)全部迁移离开CUDA,没有人会干这种事情。DeepSeek可能有自己的一套基础设施(Infra),但我不认为AWS、Azure,Google Cloud 会说,“好,今天我们要把所有东西都迁移出英伟达”,“不再支持CUDA了”,“PyTorch开发者们”,“你们自己去实现新的方式吧”,这个是不太可能发生的。对开发者来说,(这样的变化)过于不友好。我觉得短期来说对AMD是一个利好,因为AMD我记着它最近已经宣布把DeepSeek给弄过去了,但是长期来看我觉得也不好说吧。长期来看我觉得可能还是英伟达,因为这毕竟只是DeepSeek这一个模型。CUDA厉害的地方在于,它是一个通用的这种GPU调用的一个软件系统,就是你什么软件过来都可以用CUDA,但是就是DeepSeek这种做法是,它只支持DeepSeek,所以你后头有别的模型,你还要再重新适配一次。那我们就是在赌,就是以后是不是DeepSeek 就真的是这个 gold standard(黄金标配)了啊,就是DeepSeek就真的是这个OpenAI了,所有的这个初创都在DeepSeek上建,那如果是这样的话,那对AMD挺好的,因为它已经移植过去了DeepSeek。但如果后面不是DeepSeek,就比如DeepSeek,其实它的这个伟大也是在于它对这个强化学习、GRPO 这些方法的一些改进,那后面的更多模型如果都是用这种方法,你有可能就是来日方长,不一定是DeepSeek。它如果再是别的模型的话,那别的模型它又要重新适配,那就还是挺麻烦的,还不如用CUDA。
陈茜: 上面我们还说到,DeepSeek通过对FP8计算和存储的支持,实现了加速训练和减少GPU内存使用。这就让很多人又提出了一个问题,这样说起来,是不是很多模型的训练和推理,不一定要去买英伟达最好的芯片?很多像Groq等更便宜的ASIC专项芯片,还有谷歌TPU、亚马逊自己的自研芯片,是不是可以有更高效的训练和推理用途?这会不会也冲破英伟达的垄断地位?这一点确实是现在市场上大家热议的重点。
陈茜: 我们看到最近谷歌的财报之后,因为公司预计2025年资本支出将增加到750亿美元,远高于市场此前预期的580亿美元。其中很大一部分预计是在自研芯片TPU上。而博通Broadcom股价大涨,也是因为它是谷歌TPU的设计方。类似的,Meta等科技巨头也都制定计划去加大对ASIC芯片的投入,减少对英伟达的依赖,特别是今后的推理侧。所以,这个问题可能比前面我们讨论PTX是否绕过CUDA更为关键。
陈茜: 目前,我们采访的嘉宾认为,也是这里我们要说到的第三个观点,这会冲击英伟达的溢价,但不会击垮英伟达的壁垒和护城河。
嘉宾(AI投资人): DeepSeek它肯定是减少了对CUDA的一个深度绑定,因为它就是用了FP8的这个策略,那这个肯定是给 AMD还有Google TPU,还有甚至国内的华为的公司,带来了一个很大的机会。老黄是一个非常具有战略前瞻性的人,他一定会在CUDA生态系统里面,也会去优化它其它的,对于推理层面的这个,不管是性能也好还是价格也好,这个会对英伟达毛利率带来很大的冲击,因为现英伟达毛利率将近90%以上。所以它会迫使英伟达降价,那么一旦英伟达降价以后,那么英伟达本身,就是它这个CUDA的系统,还有包括它一系列的生态的支持,我觉得还是比其它芯片公司好的,所以如果英伟达降价了,可能英伟达也会从某种程度上把市场占有率再拿回来一些。
嘉宾(AI工程师): 我没觉得(DeepSeek)它动摇了(英伟达)这两个壁垒,我觉得这两个壁垒还是非常坚挺的壁垒,只是它对这个溢价有一些冲击,就是你有可能收不了那么高的价格,但是也并不代表就是其它的竞品能突然就进来。比如有个墙,现在有一个人,大家以前都觉得翻不过这个墙,现在这个人跳过去了,然后他说,唉,你看我可以跳过去,你们也有可能跳过来,但是这个墙没有变低,不是说就是他跳过去了,别人现在也都能跳过去,这就是这件事情的,就是它为什么冲击了溢价,但是没有打倒壁垒,就这个墙没有变低。
陈茜: 所以总结一下,DeepSeek没有绕过CUDA,对目前大规模弃用英伟达芯片的恐慌也不会发生。但确实新范式给英伟达的壁垒上凿了一道口子。然而,英伟达GPU和OpenAI一样,之前因为技术护城河,所以利润率和溢价很高,那么接下来,要保住自己的市场蛋糕份额,势必会降价,这对业界来说都是好消息。但接下来这个市场份额能否保住,华尔街和硅谷也都在观望。
陈茜: 既然说到算力成本降低会利好应用侧,那么接下来我们和 硅谷101的特别研究员Sophie 一起看看,哪些应用层和创业生态会被DeepSeek带来的新范式和创新所影响。
十、“AI届拼多多”:价格战打响,多行业受益 (52:41 - 58:34)
Sophie (硅谷101特别研究员): 在我们与业界嘉宾的讨论中,很多人认为,DS取得的几项突破上,对应用层面短期影响最大的,肯定是模型推理成本的跳水。而R1在逻辑推理方面展现出的潜力则让业界看到了未来几年内,软件行业可能会遭遇的颠覆性变革。DeepSeek作为“AI届拼多多” 发布之后是引爆了一场业内价格战。其实早在DS V2公布后,包括字节在内的大厂,不惜做“赔本买卖”,把API价格降到业界估计的成本线下,感觉是要“舍命陪君子”了。
Sophie: 而对于使用模型的 AI应用开发者而言,这样的价格战解锁了全新的可能性。对于一些开发者来说,DeepSeek是“锦上添花”。对于在GPT以后、DeepSeek之前,商业化的不少2B AI应用而言,这一波降价引发的是利润的量变而非质变。如果被代替的是白领工时,无论律师、医生、码农、金融分析师,基本上再贵的AI也贵不过人。所以应用者就像F1赛车手不惜代价追求着模型的极致表现,这种情况下,降价的直接影响是同样的生意,利润率大幅提高。
Sophie: 同时,DeepSeek对另外一些场景则是“雪中送炭”。那些使用场景,之前需要烧钱补贴,否则难以推广,如今却因为降价有利可图,从而可能迅速普及、上规模。比如说以下两个例子。
Sophie: 首先是陪伴型AI。对于聊天机器人类的创业公司来说,用户的“热爱”是昂贵的。拿行业龙头Character.AI来说,在2024年5月,Whats The Big Data 发布的一份报告里就引用了用户在CharacterAI平台上的单次使用时长平均约为两小时,是ChatGPT的17倍。伴随而来的是相应大幅攀升的模型使用成本,很多该类公司为了吸引用户而选择免费,不得不靠限制使用时长等方式来控制开销,同时大量资金补贴。而现在,DS彻底改写了陪伴型AI产品的成本结构。
嘉宾(AI创业者): 这个对于这个商业模式来讲的变革是巨大的,就是可能以前做不了的事情,现在它就是一个好生意了。
Sophie: 另外一个领域就是AI agent(AI代理),这是另一个臭名昭著的“算力黑洞”。由于完成一个任务,需要多步模型调用,反复自我修正与验证,甚至多个代理相互配合,这样对API调用的需求指数级上升,从而如今在成本和响应速度上,由于DeepSeek带来的进步也格外显著。
Sophie: 最后,我们来谈谈,大降价引发的从0到1新的业态可能。业内人士普遍认为,由于DeepSeek使得端部署AI小模型能力突飞猛进,我们将迎来设备端AI应用,尤其是2C应用的百花齐放。
嘉宾(AI投资人): 因为它费用非常低,再加上呢,它可运行的设备基本上是触手可及,所以这样的话呢,在to c的这个领域,它可能会有一个大的一个爆发。什么儿童助玩机器人啊,什么那种就是硬件的一些,这种帮你什么记会议笔记的呀,如果它能在端上的话,那这个成本就非常非常低了。
Sophie: 具体来讲,Larry作为投资人尤其看好的是设备端AI2C应用中,娱乐类或虚拟人助手类的应用。
嘉宾(Larry, AI投资人): 一个就是这个娱乐类的,然后再一个就是,人与人之间交互,可以生成那个两个Avatar(虚拟人),不管是给客服打电话啊,还是朋友之间的交流,可能会有一个新的模式。
Sophie: 而端部AI应用的一大特征便是,使用推理成本对于应用开发者来讲,边际成本几乎为0,因为端应用使用的计算资源全部来自用户所有的设备,而不再是云服务器。这一点意味着什么呢?它很有可能会颠覆SaaS时代的经典商业逻辑,就是“硬件+SaaS订阅”的捆绑逻辑。
Sophie: 这个经典逻辑是怎么回事呢?简单地举个比方,就叫“电动牙刷柄赔钱”,“牙刷头赚钱”。换言之,硬件以接近成本,甚至低于成本的价格出售,同时绑定独家软件订阅服务,从高利润率的软件订阅上赚回硬件补贴,并实现持续、稳定的现金流收益。然而,当端部AI服务的边际成本为0,竞争会使得订阅服务很难实质性收费,因为永远有对手比你更便宜。
嘉宾 (AI投资人): 那可能确实你的利润率会降低,因为别人会来卷你。
Sophie: 这样一来,所有沿用“牙刷头补贴牙刷柄”思路的SaaS公司在被DeepSeek拉开序幕的端AI时代,真的要好好想一想了。
Sophie: 另外,端部AI的跨越也让有的小伙伴会问,现在是不是意味着物联网的春天总算来了呢?这一点,业界目前还难以下结论。原因在于,物理世界的规则限制了硬件发展的速度,不会像数据增长与纯数据应用发展这么快。
嘉宾(AI投资人): 我们对对硬件的发展呢,相对来讲,是个比较线性的增长,数据方面的增长跟数据应用和处理方面的增长,它总是个指数型的增长,所以,这个我觉得是不可比的。
Sophie: 对于物联网的布局,孙正义之前也下手太早、栽过一回,所以现在上牌桌玩AI+物联网是不是好的时点,依然不好说。
十一、AI创业生态:VC投资人重新评估“横纵向”赛道机会 (59:19 - 1:02:31)
Sophie: 而我们在和投资人的聊天中,他们认为,在DeepSeek之后,由于前沿大模型效果趋同,进入效率竞争阶段,对于单纯追求面面俱到,没有针对性行业或使用场景的,所谓“横向”或“主赛道”AI创业公司来说,资本市场恐怕会重新评估他们的前景和估值。这其中,其实是由很多著名研究员、技术大神创立,风投圈曾高价追捧过的明星公司。
Sophie: 有投资人认为,越是融资多的“名人创业”,相对越容易陷入“高开低走”“杀鸡用牛刀”的尴尬境地。
嘉宾(AI投资人): 前一段时间在主赛道上融资的一些初创企业,会有很大的问题。我觉得从投资人角度来讲,我会担心,就是说他融这么多钱,然后呢,他所做的事,实际上别人也可以做,可能以十分之一的价钱。这个从工程师上讲,也用不着这么优秀的,顶级的工程师。
Sophie: 在DeepSeek所标志的 AI被commoditized(商品化)时代,成为“平台”、搭建生态系统或许才是横向AI企业的一条出路。
Sophie: 与之相对照的是,专注于一个细分领域或特定使用场景的纵向AI企业,则被认为是更容易建立差异化竞争优势,前提是,它们用AI提供的解决方案,必须相对于从前有质的飞跃。
嘉宾 (AI投资人): 任何一个人如果找我们来投资,我说你这个事是不是比以前要好十倍100倍,不管你再狭窄的一个事情,都有意思。
Sophie: 而DeepSeek的效率和逻辑推理能力突破,让更多这样十倍、百倍的进步成为可能。同时,细分领域累积的新数据、及随之而来的新智能,才是真正的护城河。总之,投资人和开发者似乎在达成一种共识,深耕细分领域的AI模型与应用,会超越最厉害的通用大模型。或者说,专才胜于通才,“纵”强于“横”。
Sophie: 经历这一波变革,AI行业正在整体回归理性化。我们看到少了玩命融资、囤卡和挖人才的狂热,多了和具体需求紧密结合,脚踏实地的渐进式创新。
嘉宾(AI投资人): 我们看到了一个发烧的领域,在逐渐恢复健康,可能不会有出现像过往那样如此疯狂的估值,但这些公司可能是未来,会像早期互联网融资未来慢慢发展一样,会慢慢形成一个更良性的一个公司发展格局,而不是说我,我先扔五十个亿,能不能出雪花再说,这种情况很难再发生了。
Sophie: 但这不是说AI下半场就没有那么激动人心了,恰恰相反,对AI创业者来说,下场的黄金时机很可能才刚刚开始。
嘉宾(AI投资人): 要干大事现在正是好时候,好事在后面,就跟互联网时代一样,后来慢慢起来的企业,像Google啊、像Amazon都是,这是刚刚开始,这个你要是说AI这个大浪的话,现在今天就是零。
Sophie: 总而言之呢,DeepSeek就像一条鲶鱼,搅乱了大模型行业的鱼塘。一方面开发者们获益匪浅,但同时大模型竞争格局却依旧柳暗花明。AI应用对基座模型的选择其实是个复杂的问题,不是简单地由成本和效能来定的。这当中切换成本、云厂商在搭载模型选择,甚至AI应用“脚踏几只船”,根据具体任务动态选择模型这种越来越普遍的策略,都让这个行业很难轻易分出胜负。
Sophie: 最后,DS R1在逻辑推理方面的过人之处让不少人预测,下一代R2很可能会实现AI编程能力的飞跃。这一点,无论是对软件开发的工作流、关键决策和方案选择,还是工程师的职业生涯,甚至在代码圈外人们的生活方式,可能都会带来深远的改变。而这一切改变,可能都会比人们原本预料的来得更快。
嘉宾(杨成,AI研究员): 就像受访嘉宾杨成提到的,预测五年以外可能都太远了。
陈茜: 感谢Sophie带来 DeepSeek对应用端和创业者生态的采访和分析。Sophie也有自己的Substack和播客频道,因为篇幅有限,DeekSeek对应用侧的更多影响,她接下来也会通过文章更细致的和大家分享。欢迎大家去我们的 Shownotes中找到她的频道信息。
陈茜: 那么在这个视频的最后,我们再来试图挖掘一下,孵化出DeepSeek的幻方,是一家什么样的公司?低调的创始人梁文峰,是怎么样的一个人?内部有什么故事?
十二、梁文峰与幻方成长史:从量化基金到AI公司 (1:04:41 - 1:13:19)
陈茜: 对于硅谷来说,DeepSeek是一个陌生的名字,它此前的曝光太少,团队也非常低调,颇有一种少林寺扫地僧,突然打进世界擂台的感觉。虽然DeepSeek看起来是“横空出世”,但其背后的团队,其实脱胎于幻方量化,这家公司在AI方面,有着接近8年的积淀。
陈茜: 中国量化界对这家公司肯定不陌生。梁文峰是幻方量化和DeepSeek 这两家公司的创始人。他出生于1985年,从小就展现出数学天赋,2002年,17岁的梁文峰成功考入浙江大学电子信息工程专业,2007年,继续攻读研究生、专注于机器视觉的研究。2008年,全球金融危机爆发,A股也迎来一波牛市崩盘,但当时还在读硕士的梁文峰,看到了量化交易的机会,他开始尝试,用系统化、程序化的方式来研究市场、进行交易。当时在中国还很少有人知道,量化交易是什么。
陈茜: 毕业后,梁文峰也没有像周围人一样,去互联网公司做程序员,而是躲在成都的廉价出租屋里,不停地编写AI算法来选股,用在不同的市场场景中去尝试。这个过程肯定很艰辛,会经常遭遇挫败。到了2015年,梁文峰的探索已经趋于成熟,他也建立了自己的交易体系,于是就成立了幻方量化这个品牌。
陈茜: 2015年,对于中国量化私募行业来说,也是一个重要转折点。4月,中证500指数期货上市,使量化基金拥有了更强大的工具和更丰富的对冲手段。接下来2015年A股市场的巨大波动,也给了中国量化基金一次绝佳的试水机会。在这一年30岁的梁文峰,与大学好友徐进,其实市场上也有很多关于徐进神奇的传闻,他们俩共同创办了幻方量化。
陈茜: 在2015年,炒股的朋友都应该知道这年A股经历了什么,在整个市场股灾的情况下,幻方反而取得了超额回报,甚至在年底就成立了十只对外募资产品。之后几年,顺着中国量化基金行业的爆发期,幻方的管理规模也从2016年的10亿元人名币,飙升到2019年的百亿,又在短短两年间突破了千亿。
陈茜: 不过,在幻方的成长过程中,有别于其它量化基金最大的不同,就是梁文峰对AI的执念。虽然身处金融行业,但梁文峰一直专注于模型算法革新,甚至有业内人士评价说,幻方更像是一家做机器学习、人工智能的公司,但副业用量化交易挣了钱。
陈茜: 2016年是幻方的一个关键之年,在这一年,幻方推出了第一个AI模型,并且首次使用GPU来生成交易仓位,并且上线执行。2016年之后,梁文峰带领团队,一直在AI算法和软硬件方面加大投入。到了2017年年底,幻方几乎所有的量化策略,都已经采用了AI模型。到了2018年,梁文峰明确了公司以AI为核心的发展方向,并且把整个产品线和资金管理,都嫁接到以AI为核心策略的开发体系上了,并且开始大规模招贤纳士,吸收了很多年轻的AI专家型人才。
陈茜: 然而,随着幻方在AI训练方面急剧增长的需求,一个挑战来了,算力。为了解决算力瓶颈,2019年,幻方投资2亿元,自主研发了深度学习训练平台“萤火一号”,这个平台搭载了1100块GPU显卡。2021年,幻方又构建了“萤火二号”,算力提升了18倍。之后,幻方成为中国 5家拥有上万张 A100 GPU的公司之一。
陈茜: 在2022年11月底,OpenAI发布ChatGPT,掀起新一轮人工智能浪潮之际,幻方宣布下场做AI大模型,并在2023年5月,将技术部门中做大模型的团队独立出来,也就是如今的DeepSeek。所以,DeepSeek并不是一家新公司,而是一家有经验有资金,有技术、有算力,深耕了AI技术数年的团队。但是就是这么一支团队,一度在中国融资失败。
十三、全中国VC都错过的“稍纵即逝”投资窗口 (1:09:19 - 1:11:22)
陈茜: 根据我们听到的消息,DeepSeek在2024年5月,有过一次短暂的外部投资窗口,也是目前唯一的一次。当时梁文峰想尝试融资,看看外界的兴趣。去年5月时DeepSeek V2的效果已经很好了,但在短暂接触过几家VC后,梁文峰就放弃了对外融资的想法。
陈茜: 从当时的一级市场环境来说,了解的朋友都知道,由于多年缺乏上市退出,VC们都苦于自身业绩难题,陷入DPI焦虑,很多基金不再敢于投资前沿科技的高风险项目,特别是像基础大模型这种,投入很大,成本非常高,竞争格局时刻在变化,搞不好,前浪就被后浪拍死在沙滩上的项目,风险就非常大。在这个时间点,还愿意投资基础大模型的VC寥寥无几。
陈茜: 一位美元基金的朋友跟我们说,当时的美元VC们都在竞逐有着明星创始人背景的月之暗面,以及更加务实,在商业化层面崭露头角的Minimax,这两家当时已经形成了一定共识,有点Club Deal的感觉。而对于DeepSeek这种量化出身,有点跨界意味的团队,创始人的时间分配也不太明确,一时间很多基金都摸不清楚情况,相比于投资已形成共识的月之暗面或Minimax,显然后者是更容易做出的决策。而对于人民币VC来说,由于资金期限与风险偏好的问题,本身就更不大可能投资于基础大模型,就算有这方面的投资可能性,智谱这样的政府背景深厚的公司,则更容易通过投决会。
嘉宾(AI投资人): 确实啊,你想,一个量化基金背景的团队来做AI大模型,还是开源模型,还不是Bloomberg做的金融垂直类的BloombergGPT,虽然这个产品Bloomberg也没做出来吧。但DeepSeek的路线图,确实短期内很难看到商业模式。而中国VC们更喜欢能够更快赚钱的闭源模型和更快落地的商业模式和应用。
陈茜: 所以当时的梁文峰,是不受国内的风险投资人待见的。所以当时他在融资不利的情况下,出来接受了两次采访,在现在看来也是非常珍贵的。我们从外界能一窥梁文峰和DeepSeek团队的很好的公开资料。
陈茜: 梁文峰是一位剑走偏锋的技术理想主义者。当他在2021年就开始囤积数千英伟达GPU的时候,行业中没人知道他想干什么。甚至根据金融时报的报道,一位他的商业合作伙伴用“一个发型糟糕的书呆子”来描述第一次见到梁文峰的感受。当时不少人都没有足够重视他, 最终, 梁文峰决定用幻方来承担DeepSeek的研究经费。而从幻方的发展历史上来看, 梁文峰对技术理想也是坚持的。这包括当幻方基金遭遇巨大困难时, 他依然坚持对AI的投入。 幻方业绩最辉煌的是2019年和2020年, 自然年收益分别为 58.69%和70.79%。但在2021年, 幻方出现业绩暴跌,并且在在12月底,发布了致投资者公开信,主要是因为AI在买卖时点的投资决策上出现了问题,对业绩回撤达到历史最大值深感愧疚, 并关闭全部募资通道。在这个过程中,有投资者也产生了很大的负面情绪,认为梁文峰对AI的痴迷令精力分散, 导致业绩滑坡。之后,幻方的资产管理规模,从千亿人民币逐渐回落到如今2025年的小于300亿元。但是还同一年2021年,幻方也没有停止对AI的投入, 并且构建了比一号算力高18倍的“萤火二号”。 幻方的另一个艰难时刻是在2024年, 中国金融监管机构对量化交易进行进一步缩紧, 股市情绪也对量化基金们多有争议。而这个时候, DeepSeek的投入开始出成绩了。DeepSeek V2系列模型自2024年5月发布开源以来,开始受到业界的关注。甚至在我们硅谷101的评论区,在2024年7月,已经有观众提到DeepSeek。之后发生的事情大家都知道了,V3发布 之后R1-Zero和R1引爆市场。而幻方之后是不是,就成为一家AI模型为主导,量化基金为旗下附属应用产品的公司呢?
十四、幻方的企业文化与初心(1:13:51 - 1:17:51)
陈茜: 现在看来,幻方在2021年业绩低谷期,仍然能顶住压力, 坚定地投入AI而团队不散, 离不开独特的组织架构和企业文化。量化基金是一个源自美国产物,这使得几乎所有中国的头部量化基金的创始班底,都或多或少有过美国或欧洲对冲基金的履历,唯独幻方是一个例外,它完全是本土班底起家, 独自摸索长大。DeepSeek完全是国内本土团队,没有海归人才, 团队成员大多是来自于清华、北大、北邮、北航等国内顶尖高校的计算机专业应届生, 或者是在读的博士生。
陈茜: 梁文锋自己也是一位身先士卒的创始人, 他更愿意被当作工程师,而不是交易员。他几乎每天都亲自参与写代码、跑代码, 作为一个懂技术,并且对技术充满好奇心的创始人,这是梁文峰与其他同行的核心区别。这里的同行,不只是指国内的量化基金创始人, 也包括像Sam Altman这样的创始人.
陈茜: (1:16:41)正是这种扁平而灵活的团队架构带来了DeepSeek特殊的文化。DeepSeek的团队非常年轻,整个团队的平均年龄只有28岁。公司很多核心技术岗位,是由刚毕业一两年的年轻人担任。幻方和DeepSeek鼓励内部形成不同主题的技术小组,成员之间可以自由交流和合作,内部氛围也非常宽松,并不采用常见的KPI、OKR的考核方式,一切基于这些职场新人的自我驱动力。在幻方,每个人可以根据自己的能力和兴趣,选择自己的研究方向,即使是刚毕业的新人,也有机会去主导探索一个全新领域,这种氛围跟互联网大厂非常不一样,不需要你先去立项,证明价值,再与其他团队抢资源.
陈茜: (1:17:31)这样的文化氛围,是不是让人联想到刚成立时候的OpenAI?还是那个非盈利架构下的OpenAI,Ilya Sutskever、Andrej Karpathy、Mira Murati都还没有离职的OpenAI。那时它们都更像是一个纯粹的AI Lab。凝聚一个技术团队最核心的东西,就是对技术本身的坚定信仰。
陈茜: 最近我在刷即刻的时候看到,心资本的合伙人吴炳见,他在社交媒体上发了一段感慨,他去年的时候去问DeepSeek的人,为什么你们的模型做的那么好?对方回答说,因为我们的老板自己读论文、自己写代码、自己做招聘,时间花在哪里,哪里就容易出效率。听着很简单,但真相往往就是这么纯粹。
陈茜: 但随着DeepSeek团队如今到了聚光灯下,更多的压力和更多的目光,梁文峰能否带领这个团队保持初心呢?我们也拭目以待。
(1:18:29) 硅谷圈子的常见疾病:“错位的优越感”
陈茜: 我们也联系上了幻方的创始人和管理团队,很遗憾他们在这个时间点拒绝了我们的采访邀约。但还是希望以后有机会,可以直接和梁文峰与 DeepSeek团队对话和采访。
陈茜: 但正如我们众多嘉宾所提到的,DeepSeek带来的创新,无论是技术创新还是工程创新,都对硅谷带来了非常多的启发和讨论。
嘉宾(AI行业分析师): 其中一位嘉宾说,在硅谷的AI发展路线,在DeepSeek之前都开始非常趋同了,大家都做的一样的事情,用的一样的技术,采取一样的路线。但DeepSeek这次带来的耳目一新,重新又盘活了整个硅谷的AI大战,无论是Meta,还是谷歌,还是OpenAI,还是Anthropic,大家的紧迫感又回来了。
陈茜: 就像Meta创始人扎克伯格在一次All-hands 全体员工会议中说,所有人都要为紧张的一年做好准备。而就在硅谷重新回到“作战室”状态之际,我也很认同图灵奖得主Yann Lecun最近在LinkedIn上的发言。他说,在硅谷某些圈子里,存在一种常见的疾病,叫“错位的优越感”,认为你的小圈层垄断了所有的好主意,假设其他地方的创新是通过作弊获得的。但现实是,当大量有才华的人参与并分享他们的创新时,科学技术才能进步得更快。
陈茜: 而之后的AI格局,开源与闭源路线之战,算力之战,大模型和小模型之战,应用之战可能才刚刚打响,我们也会在硅谷为您持续关注。
陈茜: 以上就是这期我们硅谷101的全部内容啦,这期内容我们整个编辑部春节都在加班,组成了五人小分队,进行了超过10个核心的采访。如果有任何技术问题,解释得不够清楚或者有值得讨论的地方,欢迎大家友好交流。你们的留言、点赞、转发和订阅是支持我们做好深度科技和商业内容的最佳动力。记得关注我们,不要错过更新哦。我是陈茜,我们下期视频再见啦!
要点提炼:梁文峰、幻方量化的创业经历以及 DeepSeek 的崛起
梁文峰个人经历与特质:
- 1985年出生,从小展现数学天赋。
- 2002年考入浙江大学电子信息工程专业。
- 2007年继续攻读研究生,专注于机器视觉研究。
- 2008年全球金融危机期间,看到量化交易机会,开始尝试用系统化、程序化方式研究市场、进行交易(当时中国很少有人知道量化交易)。
- 毕业后没有去互联网公司做程序员,而是躲在成都廉价出租屋里编写AI算法来选股,并在不同市场场景中尝试。
- 2015年,探索趋于成熟,建立了自己的交易体系,成立幻方量化。
- 剑走偏锋的技术理想主义者。
- 身先士卒的创始人,更愿意被当作工程师而不是交易员,几乎每天都亲自参与写代码、跑代码。
- 懂技术,并且对技术充满好奇心,这是他与其他同行(包括国内量化基金创始人和Sam Altman)的核心区别。
幻方量化创业与发展:
- 2015年与大学好友徐进共同创办幻方量化。
- 2015年是中国量化私募行业的重要转折点:中证500指数期货上市,量化基金拥有更强大的工具和丰富的对冲手段;A股市场巨大波动,为量化基金提供试水机会。
- 在市场股灾的情况下,幻方取得超额回报,年底成立十只对外募资产品。
- 2016年至2019年,管理规模从10亿元人民币飙升至百亿,两年间突破千亿。
- 与其它量化基金最大的不同:梁文峰对AI的执念。幻方更像是一家做机器学习、人工智能的公司,副业用量化交易挣了钱。
- 2016年是关键之年:推出第一个AI模型,首次使用GPU生成交易仓位并上线执行。
- 2017年年底,几乎所有量化策略都采用AI模型。
- 2018年,明确以AI为核心的发展方向,将整个产品线和资金管理嫁接到以AI为核心策略的开发体系上,大规模招贤纳士。
- 面临算力瓶颈:2019年投资2亿元自主研发深度学习训练平台“萤火一号”(1100块GPU显卡);2021年构建“萤火二号”,算力提升18倍;之后成为中国5家拥有上万张A100 GPU的公司之一。
- 2021年,幻方出现业绩暴跌, 并发布公开致歉信,主要原因为 AI 在买卖时点的投资决策上出现问题,关闭全部募资通道。投资者产生负面情绪,认为梁文峰对AI的痴迷令精力分散,导致业绩滑坡。 资产管理规模从千亿人民币回落到2025年的小于300亿元。
- 2021年,即使业绩不佳仍旧没有停止对AI的投入。
- 2024年,中国金融监管机构对量化交易进行进一步缩紧,股市情绪对量化基金们多有争议。
DeepSeek的崛起:
- 脱胎于幻方量化,有接近8年的AI积淀,并非“横空出世”。
- 2022年11月底,OpenAI发布ChatGPT,掀起新一轮人工智能浪潮之际,幻方宣布下场做AI大模型。
- 2023年5月,将技术部门中做大模型的团队独立出来,即DeepSeek。
- DeepSeek团队特点:完全是国内本土团队,没有海归人才;成员大多是来自国内顶尖高校的计算机专业应届生或在读博士生;团队非常年轻,平均年龄只有28岁;公司很多核心技术岗位由刚毕业一两年的年轻人担任。
- 2024年5月,DeepSeek V2系列模型发布开源以来,开始受到业界关注。
- DeepSeek V3发布,之后R1-Zero和R1引爆市场。
- DeepSeek用难以想象的低成本,实现不输OpenAi的性能。
- 2024年5月,DeepSeek有过一次短暂的外部投资窗口,梁文峰尝试融资但最终放弃。
- Deepseek融资困境的原因:VC对前沿科技的高风险项目投资意愿降低、Deepseek的量化背景和路线让VC看不懂、更倾向于投资有明星创始人和已经形成共识的项目。
- 幻方独特的组织架构和企业文化:扁平而灵活;鼓励内部形成不同主题的技术小组,自由交流合作;内部氛围宽松,不采用常见的KPI、OKR考核方式;新人有机会主导全新领域。
这些描述较为完整地勾勒出了梁文峰的个人特质、幻方量化的发展历程,以及 DeepSeek 如何在这样的背景下诞生的过程。 突出了梁文峰对技术理想的坚持,幻方以AI为核心的发展战略,以及DeepSeek团队年轻、本土化、扁平化的特点。
从量化交易到AI颠覆者:梁文峰、幻方量化与DeepSeek的崛起之路
在人工智能浪潮席卷全球的当下,一家名为DeepSeek的中国初创公司,以其“低成本、高性能”的大模型技术,在全球AI领域掀起了一场风暴。这家公司的背后,是低调的幻方量化,以及一位被称为“剑走偏锋的技术理想主义者”的创始人——梁文峰。他们的故事,是一段从量化交易到AI技术突破的非凡旅程。
一、少年天才,结缘AI与量化交易
1985年出生的梁文峰,从小就展现出过人的数学天赋。2002年,他考入浙江大学电子信息工程专业,并在2007年继续攻读研究生,专注于机器视觉领域的研究。这段经历,为他日后在人工智能领域的深耕埋下了伏笔。
2008年,全球金融危机爆发,A股市场也经历了剧烈震荡。然而,敏锐的梁文峰却从中看到了量化交易的机遇。他开始尝试用系统化、程序化的方式来研究市场、进行交易,而当时在中国,量化交易还是一个鲜为人知的概念。
毕业后,梁文峰并没有像大多数同学那样进入互联网大厂,而是选择了一条更为艰难的道路。他躲在成都的廉价出租屋里,潜心编写AI算法,试图用AI来选股,并在不同的市场场景中进行反复试验。这段经历充满了挫折与挑战,但梁文峰从未放弃对技术的探索。
二、创立幻方量化,以AI为核心
2015年,经过多年的积累和沉淀,梁文峰的量化交易体系逐渐成熟。他与大学好友徐进共同创立了幻方量化,正式开启了量化投资的征程。
这一年,对于中国量化私募行业来说,也是一个重要的转折点。中证500指数期货的上市,为量化基金提供了更丰富的对冲工具;而A股市场的剧烈波动,则为量化基金提供了绝佳的实战检验机会。幻方量化凭借其独特的AI算法,在市场股灾中逆势取得了超额回报,迅速崭露头角。
在随后的几年里,幻方量化的管理规模一路飙升,从2016年的10亿元人民币,到2019年突破百亿,并在短短两年内突破千亿,成为中国量化私募行业的领军者。
然而,与其它量化基金不同的是,幻方量化始终坚持以AI为核心的发展战略。梁文峰将大部分精力投入到模型算法的革新上,甚至有业内人士评价说,幻方量化更像是一家“副业做量化交易”的AI公司。
2016年,幻方量化推出了第一个AI模型,并首次使用GPU生成交易仓位。2018年,梁文峰明确将公司发展方向聚焦于AI,并将整个产品线和资金管理体系都建立在以AI为核心的策略开发之上。
三、算力瓶颈与坚定投入
随着幻方量化在AI训练方面的需求急剧增长,算力成为了制约发展的瓶颈。为了解决这一问题,梁文峰展现出了惊人的魄力和决心。
2019年,幻方量化投资2亿元,自主研发了深度学习训练平台“萤火一号”,搭载了1100块GPU显卡。2021年,又构建了“萤火二号”,算力提升了18倍。这使得幻方量化成为中国少数几家拥有上万张A100 GPU的公司之一。
然而,就在幻方量化在AI领域持续投入的同时,公司也遭遇了前所未有的挑战。2021年,由于AI模型在买卖时点决策上的失误,幻方量化的业绩出现了大幅回撤,甚至发布了公开致歉信,并关闭了全部募资通道。
面对投资者的质疑和负面情绪,梁文峰顶住了巨大的压力,依然坚持对AI的投入。他坚信,AI才是未来的方向,而短期的挫折只是前进道路上的插曲。
四、DeepSeek的诞生与崛起
2022年11月,OpenAI发布ChatGPT,在全球范围内掀起了新一轮人工智能浪潮。敏锐的梁文峰再次捕捉到了这一历史性的机遇。幻方量化宣布下场做AI大模型,并在2023年5月,将技术部门中负责大模型研发的团队独立出来,这就是DeepSeek。
DeepSeek的团队,是一支充满活力和创新精神的年轻队伍。他们大多是来自国内顶尖高校的计算机专业应届生或在读博士生,平均年龄只有28岁。梁文峰亲自参与代码编写和技术指导,营造了一种扁平化、自由、开放的团队文化,鼓励成员们大胆探索、勇于创新。
2024年5月,DeepSeek V2系列模型开源发布,开始受到业界关注。随后,DeepSeek V3、R1-Zero和R1的相继发布,更是引爆了整个AI领域。DeepSeek以其难以想象的低成本,实现了不输OpenAI等顶尖大模型的性能,彻底颠覆了人们对AI大模型研发的认知。
五、DeepSeek的“鲶鱼效应”
DeepSeek的崛起,不仅在技术上取得了突破,也对整个AI行业产生了深远的影响。它就像一条鲶鱼,搅动了原本平静的AI大模型市场,迫使各大公司重新审视自己的战略和定位。
DeepSeek的低成本、高性能,直接冲击了OpenAI、Anthropic等闭源大模型公司的定价策略,也让Meta等开源大模型公司感受到了巨大的竞争压力。同时,DeepSeek的创新也为GPU算力市场带来了新的变数,促使各大芯片厂商重新思考未来的发展方向。
在应用层面,DeepSeek的推理成本跳水,为AI应用的普及和创新提供了新的可能性。陪伴型AI、AI Agent等原本受限于成本的应用场景,有望迎来爆发式增长;而设备端AI应用的兴起,则可能颠覆传统的SaaS商业模式。
对于AI创业者来说,DeepSeek的出现,意味着一个更加公平、开放的竞争环境。专注于细分领域、提供差异化解决方案的AI企业,将更有机会脱颖而出。
六、被错过的投资机会与未来的挑战
尽管DeepSeek取得了令人瞩目的成就,但在其崛起的过程中,也曾遭遇过融资的困境。2024年5月,DeepSeek曾有过一次短暂的外部投资窗口,但由于当时VC普遍对前沿科技高风险项目持谨慎态度,加之对DeepSeek的量化背景和发展路线缺乏了解,最终未能获得融资。
如今,DeepSeek已经成为全球AI领域的一颗耀眼新星,无数投资人开始主动寻求合作。然而,对于梁文峰和DeepSeek团队来说,未来的道路依然充满挑战。
如何在保持技术领先的同时,找到可持续的商业模式?如何在激烈的市场竞争中,保持团队的初心和创新精神?如何在应对各种争议和质疑的同时,继续推动AI技术的进步?这些都是DeepSeek需要面对的问题。
结语
梁文峰、幻方量化与DeepSeek的故事,是一段充满激情、创新和挑战的创业传奇。他们用自己的实践证明,即使在资源有限的情况下,只要坚持对技术的信仰,勇于探索,也能在AI领域取得令人瞩目的成就。DeepSeek的崛起,不仅是中国AI技术实力的体现,也为全球AI行业的发展注入了新的活力。未来,我们期待DeepSeek能够继续保持创新精神,为人工智能技术的进步和应用做出更大的贡献。