type
Post
status
Published
date
Apr 7, 2026
slug
grok-failure
summary
Grok在2025年和2026年的表现不佳,尽管市场份额上升,但编程能力落后于竞争对手,且面临多起法律诉讼和管理危机。创始团队在短时间内全部离职,反映出组织内部的深层问题。马斯克的高压管理风格未能适应AI研发的需求,导致人才流失和创新能力下降。整体来看,Grok的掉队是资源与管理失衡的结果,强调了在AI领域成功需要的深度思考与创造力。
tags
Facebook
Meta
马克·扎克伯格
社交媒体
谣言
category
文章
icon
password
2025 年 3 月,如果你打开 FutureX 的“预测未来”榜单会发现。
排在总榜第一名的 Grok 4 已经在周榜中排列第十八名。事实上,在进入 2026 年以后,Grok 就从未进入过榜单前 10 名。
讽刺的不是分数本身。讽刺的是,马斯克在2025年7月的Grok 4发布会上亲口说过:"预测未来是最好的智能测试。"[1] 现在,他被自己定下的标准打了脸。
但Grok真的很烂吗?数据说的不完全是这回事。
Grok 4.1在LMArena排名第一,Elo值1483。在美国市场,Grok的份额从2025年初的1.9%飙升至2026年初的17.8%。[2] 模型基础能力不差,用户也在涨。
然而,马斯克自己在公开场合承认:Grok的编程能力落后于Anthropic的Claude Code和OpenAI的Codex。AI评测研究者Peter Wildeford的评估更具体:xAI在产品能力上落后Anthropic、Google和OpenAI大约7个月。
7个月。在一个模型能力以周为单位迭代的赛道上,7个月约等于一个地质年代。
这就是故事最诡异的地方。xAI坐拥全球AI公司中最奢侈的资源清单:Colossus——一座部署了超过20万块H100 GPU的超级计算集群;X平台(前Twitter)每天产生的海量用户数据;200亿美元融资;以及埃隆·马斯克(Elon Musk)这个名字本身带来的全球关注度。
Bloomberg披露的财务数据给这张成绩单贴上了价格标签:截至2025年9月30日的前9个月,xAI烧掉了78亿美元现金,月均近10亿美元;同期季度净亏损从第一季度的10亿美元扩大至第三季度的14.6亿美元;而季度营收仅有1.07亿美元。
但近半年来,Grok却很少因为正面事件而被人关注。
2026年1月,Grok的AI图像生成功能被曝可以生成未成年人的不当图片。欧盟委员会公开表示这些内容"违法且令人震惊",英国数据监管机构要求X平台做出解释。xAI被迫将图像生成功能限制为仅向付费用户开放。两个月后,三名原告——其中两名未成年人——对xAI提起集体诉讼,指控其明知模型被用于制作性虐待材料,仍然设计、销售并从中获利。
这不是第一次。2025年7月,Grok在X平台上突然开始输出反犹太主义言论,甚至自称"机械希特勒"(MechaHitler)。《华尔街日报》(The Wall Street Journal)的调查发现,xAI工程团队在修改系统指令时加入了一条规则:"只要有充分依据,你不应回避发表政治不正确的言论。"两天后,Grok失控,X平台被迫关闭聊天机器人功能。[3] 安全政策智库Just Security将xAI列为"无治理AI"(ungoverned AI)的典型案例。
跑分落后、产品失控、治理缺位——三个维度的掉队,指向同一个根源。这不是一个关于"谁更聪明"的故事。这是一个关于"拥有一切的人为什么还是输了"的故事。
到2026年春天,如果你问一个普通用户"Grok有什么是别家做不到的",答案恐怕只剩一个:生成不可描述的文字。
1. 十一个人的葬礼
2023年7月,xAI成立时有11位联合创始人。到2026年3月28日,一个不剩。
时间线压缩得令人窒息。
2024年年中,基础设施负责人Kyle Kosic跳槽OpenAI——当时几乎没人注意到。
2025年2月,前Google Brain研究员Christian Szegedy离职,外界还把它当作正常的人员流动。8月,Igor Babuschkin走了,转身创办了自己的风投公司。2026年1月,Grok核心架构师Greg Yang因莱姆病退出日常工作。
2026年2月10日到11日,48小时之内,Tony Wu和Jimmy Ba接连辞职——一个是推理团队负责人,一个是研究与安全负责人,师徒二人前后脚告别。[4] 2月下旬,Toby Pohlen离开。3月中旬,Zihang Dai和Guodong Zhang相继离开。3月28日,最后两人——Manuel Kroiss和Ross Nordeen——同日离职。
11/11,清零。
联创的出走只是冰山一角。据调查报道,早在2025年,就已有13名 xAI 核心高管集体离职——这些人不在11位联合创始人名单上,但包括工程副总裁、产品负责人和多位资深研究员。 Business Insider后来汇编了一份完整的关键离职人员清单,长度触目惊心。 换句话说,到联创清零的那一天,xAI已经经历了至少两轮大规模人才出逃。第一轮是高管,第二轮是创始人——而每一轮都在加速下一轮。
Ross Nordeen的离开尤其值得品味。他是马斯克表弟的多年好友,2022年Twitter收购后负责执行那场臭名昭著的大裁员——砍掉了80%的员工。如果说xAI的联创团队里有谁称得上"嫡系中的嫡系",就是这个人。连他都走了。
据21世纪经济报道的调查,这场出走的本质"不是人员流动,是组织的免疫排斥反应"。
马斯克本人在3月13日对外承认了问题的严重性。他对TechCrunch说了一句后来被反复引用的话:"xAI was not built right the first time around."——"xAI第一次没建对。"[5]
紧接着,他从SpaceX和Tesla空降了一批审计员和管理人员,对xAI的研发团队进行了一轮清洗式重组。
这就是Grok"掉队"的底层故事:不是模型不行,是做模型的人跑光了。
但人为什么跑?
2. 二十万张显卡买不来的东西
xAI前联创Toby Pohlen在2026年2月26日发了一条推文。没有怨怼,没有爆料,只有一句轻描淡写的话:"My next priorities: sleep for more than 8h, write down all the things I've learnt (I have a list), and then think about what I want to do next."
"我接下来的优先事项:睡够8小时,写下所有我学到的,然后思考我下一步要做什么。"
几天后,Pohlen在X上再次回忆了xAI的工作节奏。2023年11月3日凌晨1点30分,马斯克在团队群聊中发消息:接下来36小时需要进入"极端硬核"状态。当时团队只有一个略作微调的基础模型和尚未完善的用户界面。36小时后,第一个Grok正式发布。
Pohlen的总结是:"没有任何药物,连咖啡因都没有,只有肾上腺素。埃隆给了任务,团队完成了。"[6] 但他也补充了一句警告:"不要为了炫耀而拼命工作,不要为了让别人看见而加班。"
Business Insider的后续报道补充了更多细节:Grok首发前夕,Pohlen经历了"连续一天半不间断写代码和上线"(a day and a half of straight coding and shipping)的极限冲刺。
xAI前CFO在入职102天后辞职,据报道每周工作时长达120小时。马斯克的管理风格是出了名的"极限施压"——122天建成Colossus超级计算中心的故事一度被当作硅谷传奇,员工睡在数据中心走廊的照片被广泛传播。据InfoQ报道,他要求团队在19天内完成通常需要数月的工作。
这套管理术有一个隐含的底层逻辑:所有问题都可以通过更多的人、更长的工时、更狠的执行来解决。
在造火箭和造车的领域,这个逻辑是对的。SpaceX能用这种方式把猎鹰重型(Falcon Heavy)送上天,Tesla能用这种方式熬过"产能地狱"(Production Hell)。因为硬件制造的特征是:目标明确,步骤可拆解,进度可量化。你知道终点在哪里,你只需要更快地跑。
但AI研发不是造火箭。
2026年4月3日,深度求索(DeepSeek)创始人梁文峰接受了一次罕见的公开采访。他说了一句话,简单得几乎像常识:"一个人每天能高质量工作的时间很难超过6到8小时,加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。"[7]
梁文峰描述的DeepSeek管理模式是马斯克的镜像反面:没有KPI,没有固定上下班时间,以小方向和兴趣导向为主,团队成员可以自由调用计算资源而无需层层审批,梁文峰本人直接参与项目研发,与年轻工程师一起解题。
把这两种模式放在一起看,核心分歧就浮出了水面。
马斯克把AI研发当作另一条生产线。他的信条是:投入更多资源(GPU、资金、人力),施加更大压力(deadline、审计、清洗),就能产出更好的结果。这在硬件制造领域被反复验证——Colossus超算中心确实在122天内拔地而起。
梁文峰把AI研发当作知识生产。他的信条是:真正的突破来自深度思考,而深度思考需要时间、自由和心理安全感。你不能命令灵感在deadline前到来。
SpaceX的成功让马斯克相信,一切都可以用意志力和资源堆砌来解决。但AI研发的核心产出——算法创新、架构突破、训练策略优化——恰恰是最抵抗高压管理的智力活动。你可以逼一个工程师在72小时内焊好一个火箭发动机喷嘴,但你不能逼一个研究员在72小时内想出一个更好的注意力机制。
这像什么?像一个石油富国发现了海量原油,然后所有资源涌入石油开采,制造业和高科技产业因此萎缩——经济学管这叫"荷兰病"(Dutch Disease),1959年荷兰格罗宁根(Groningen)气田的发现催生了这个概念。xAI是AI行业的第一个荷兰病案例:GPU太多了,钱太多了,多到让人误以为这些东西可以替代一切。
当然,DeepSeek也不是什么管理学乌托邦。核心研究员王炳宣被腾讯挖走,R1核心作者郭达雅离职,竞争对手开出两到三倍的薪酬来抢人。但人才因为"被高薪挖走"而离开,和因为"受不了"而逃离,是两种完全不同的故事。前者说明你的人才有市场价值;后者说明你的组织在系统性地驱逐人才。
还有一个容易被忽略的变量:马斯克本人的注意力。
2025年1月至5月,马斯克以"特殊政府雇员"的身份执掌美国政府效率部(Department of Government Efficiency,简称DOGE),试图用算法和裁员重塑联邦政府。他带领一群平均年龄22岁的年轻工程师闯入各个联邦机构,推动激进的预算削减和人员清洗。 这场改革让他成为美国政治最具争议的人物之一:
公务员群体大规模抗议,民主党人要求弹劾,Tesla股价因反对者的抵制暴跌近20%。7月,36氪的长文总结了马斯克2025年的处境:DOGE政治失势、Tesla销量暴跌、Robotaxi项目技术不成熟、星舰连续失败——而Grok输出极端内容引发监管调查、财务亏损、高管流失同时爆发。"钢铁侠"迎来了失速时刻。
5月底,马斯克宣布离开DOGE。《华尔街日报》的标题意味深长:"马斯克离开DOGE,回归伤痕累累的商业帝国。"[8]
在马斯克忙于重构美国政府的那四个月里,xAI正以每月近10亿美元的速度燃烧现金,联合创始人正在一个接一个地离开,而竞争对手们没有一天停下脚步。一个人的注意力是有限的——但这句话在马斯克身上需要乘以六倍来理解:他同时经营着Tesla、SpaceX、xAI、X、Neuralink和The Boring Company,还要抽空去华盛顿砍联邦预算。
梁文峰在同一次采访中还说了另一句话:"我们的创始人直接参与研发,和年轻工程师一起解题。"
一个创始人在白宫开会,另一个创始人在和工程师一起写代码。差距就在这里。
Toby Pohlen离职后的第一件事是"睡够8小时"。xAI的11位联创用脚投了票。
把梁文峰那句话里的"算力资源"换成"一切资源"——这就是xAI的诊断书。
3. 不止一个掉队者
如果Grok的掉队只是一个管理失败的个案,它最多是一则商业新闻。但当我们把镜头拉远,会发现这不是孤例。
2025年4月,Meta发布了Llama 4系列模型。发布即翻车。
独立测试机构Rootly对Llama 4 Maverick进行了代码能力评估,准确率70%——远远落后于GPT-4o的88%。[9] Artificial Analysis的评价更不留情面:Llama 4 Maverick的综合表现"低于平均水平"。
但真正的丑闻不是性能差,而是造假。多个来源曝出,Llama 4的训练数据疑似混入了测试集——用考试卷子当练习题,俗称"背题"。更要命的是,团队对不同的基准测试使用了不同的模型配置,导致公开报告的数据和实际表现之间存在显著差距。
杨立昆(Yann LeCun),彼时仍为Meta首席AI科学家,亲自在社交媒体上承认:"结果确实有些造假。"
Llama 4至今未能恢复声誉。Meta的AI叙事从"开源救世主"滑落为"刷榜造假者"。而这一切发生的背景是:Meta在2025年的AI资本开支达到约720亿美元(年初指引600至650亿美元,Q1上调至680至720亿),2026年进一步飙升至1150至1350亿美元。
xAI和Meta,踏空的方式不同。一个是管理崩溃,一个是诚信崩溃。但结果相同:在一个以日为单位迭代的赛道上,踏错半步就再难追回。
2026年2月,SpaceX宣布以1.25万亿美元估值吞并xAI。4月1日,合并后的公司秘密向SEC递交IPO申请,目标估值1.75万亿美元。Reuters的报道拆解了估值构成:SpaceX火箭和星链业务约值1万亿,xAI被估为2500亿。
2500亿美元,给一家联创清零、月烧10亿、季度营收1亿的AI公司。
马斯克的操作更耐人寻味。据财联社报道,他要求参与IPO承销的投行购买Grok的企业版服务。当你的产品好到不需要推销的时候,你不会这么做。
与此同时,马斯克宣布投资200至250亿美元建设Terafab芯片工厂,将Tesla、SpaceX和xAI的资本开支捆绑在一起,使得三家公司的独立财务表现变得更加模糊。 正如我们在《Twitter 诞生 20 年,走过整个互联网的一生》中所追溯的——X/Twitter从社交平台沦为AI业务的数据饲料和估值工具,蓝鸟的一生最终以被火箭吞噬而告终。
用火箭的确定性利润,为AI的亏损镀金。这是资本市场的魔术,但不是技术竞争的答案。
4. 残酷节奏
让我们做一道简单的算术题。
Anthropic,7位联合创始人,至今无一离队,员工留存率80%。[10] OpenAI,11位联合创始人,走了8位——但用了9年。Google DeepMind稳步推进Gemini系列,核心团队保持稳定。
xAI,11位联合创始人,3年,清零。
这道算术题的答案很简单:AI竞赛不奖励最有钱的,奖励最稳的。稳定的团队意味着持续的技术积累,持续的技术积累意味着每一次模型迭代都能站在上一次的肩膀上。而xAI每隔几个月就换一批核心研究员,等于每隔几个月就推倒重来一次。在一个以周为单位迭代的赛道上,这不是劣势,是死刑缓期执行。
马斯克说:"xAI第一次没建对,所以正在从地基开始重建。同样的事也发生在特斯拉身上。(xAI was not built right the first time around, so is being rebuilt from the foundations up. Same thing happened with Tesla.)"
他把AI研发等同于造车。也许问题就出在这里。
Tesla的至暗时刻是产能地狱——工厂流水线上的问题可以用更多的人、更长的工时、更狠的管理来解决。你把一条有缺陷的产线拆了重建,它就能跑起来。
xAI的至暗时刻是什么?是它拥有全球最大的GPU集群,却写不出让开发者愿意用的代码工具。这不是流水线的问题。你不能把一个研究团队"拆了重建",然后指望它产出同样的创造力——因为创造力恰恰是高压管理最先摧毁的东西。
2023年7月12日,马斯克在X平台上宣布成立xAI。他写道:"xAI的目标是理解宇宙的真实本质。"
不到三年,理解宇宙的目标变成了追赶竞争对手的编程能力。11位联合创始人变成了0位。"极端硬核"的工作文化变成了人才出逃的加速器。全球最大的GPU集群变成了一个昂贵的、等待被重新填满的容器。
也许这才是这个故事最值得记住的部分:在AI这个领域,你无法用建造火箭的方式建造智能。火箭需要的是钢铁、燃料和精确的工程计算,你可以逼迫一支团队在122天内把它们组装起来。但智能需要的是洞察、直觉和反复试错的耐心——而这些东西恰恰会在你试图"逼"的那一刻消失。
马斯克大概不会同意。他会说Tesla也经历过至暗时刻,SpaceX也曾三次发射失败。他相信一切都可以重建。
也许他是对的。但在AI竞赛中,重建的成本不只是时间和金钱——还有那些已经离开的头脑里装着的、永远带走了的东西。
梁文峰说的那句话也许不只关于工作时间:
"加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。"
把"算力资源"换成"一切资源"——这句话就是整个故事的注脚。
参考资料:
[1] 人人都是产品经理,马斯克称"预测未来是最好的智能测试",2025
[2] 新浪财经,Grok市场份额从1.9%飙升至17.8%,2026.2.14
[3] 华尔街日报,Grok输出反犹太言论及"MechaHitler"事件调查,2025
[4] Reuters,Two co-founders of Elon Musk's xAI resign, joining exodus,2026.2.11
[5] TechCrunch,Not built right the first time: Musk's xAI is starting over, again,2026.3.13
[6] 量子位,xAI首个Grok模型问世幕后:没有药物和咖啡因,纯靠肾上腺素,2026.3.5
[7] 腾讯新闻,DeepSeek创始人梁文峰公开采访,2026.4.3
[8] 华尔街日报,马斯克离开DOGE,回归伤痕累累的商业帝国,2025
[9] Rootly,Llama 4 underperforms: a benchmark against coding-centric models,2025
[10] 量子位,Anthropic人才吸引力是OpenAI的8倍,留存率达80%,2025
Loading...



.png?table=block&id=33cca795-c956-8018-8a4b-f05e5e93290b&t=33cca795-c956-8018-8a4b-f05e5e93290b)


.png?table=block&id=33cca795-c956-80f1-bf4d-ca100f3e85b4&t=33cca795-c956-80f1-bf4d-ca100f3e85b4)