我把 Karpathy 最新 70 分钟播客听了两遍,整理出 6 个核心判断
Karpathy 在 No Priors 播客说的每一句话都在戳我。AI Psychosis、Token 杠杆率、AutoResearch、LLM 的参差不齐——作为一个每天用 AI 写代码的开发者,我感觉他在描述的就是我正在经历的事。
上周,Karpathy 在 No Priors 播客又出现了。
这期播客我反复听了两遍。不是因为内容难懂,而是他说的每一句话都在戳我。作为一个每天用 AI 写代码的开发者,我感觉他在描述的,就是我正在经历的事。
01 AI Psychosis:一种新型焦虑
Karpathy 用了一个词:“AI psychosis”(AI 精神病)。
他说自己长期处于一种状态:因为看到 AI agent 能做到的事越来越多,反而开始焦虑。焦虑自己没有把这些工具的潜力榨干,焦虑自己还在手写本可以委托给 agent 的代码。
“There was a huge unlock in what you can achieve as a person, as an individual.”
这种焦虑不是坏事。它本质上是一种能力觉醒的副作用:你开始意识到,制约你产出上限的不再是工具,而是你自己没找到正确的使用方式。
他说,现在失败的体验变了。以前代码跑不通是能力问题,现在跑不通是”skill issue”(用法问题)。AI 的能力已经在那了,是你没有找对方式。
这个判断很关键。它意味着:现在最值得投资的能力,是如何让 agent 高效工作,而不是自己写代码的速度。
02 Token 吞吐量:新时代的 GPU 利用率
Karpathy 做了一个类比,一下子点醒了我。
他说,以前在 OpenAI 搞训练,大家的 KPI 是 GPU 利用率,要让昂贵的算力一刻不闲着。现在,逻辑一样,只是对象换了:你要最大化 token 吞吐量,让 agent 一直在跑,而不是等你来下一条指令。
“The name of the game now is to increase your leverage. I put in just very few tokens just once in a while and a huge amount of stuff happens on my behalf.”
翻译过来:你输入极少的 token,触发大量的自动化工作。这才是现阶段正确的杠杆模型。
他具体怎么做的?他搭了一个叫”Dobby the Elf Claw”的家居自动化系统。通过 WhatsApp 用自然语言控制家里的灯光、空调、安防摄像头。不是用某个智能家居 App,而是让 agent 直接调用这些设备的 API。
这背后有一个更大的判断:
“The customer is not the human anymore. It’s agents who are acting on behalf of humans.”
行业必须重新适配。现在很多软件是为人类设计的,有复杂的界面、繁琐的交互。但 agent 不需要这些,它需要的是简洁、稳定的 API。那些为人类设计的复杂 App,正在被 agent 的工作方式瓦解。
03 AutoResearch:把自己移出循环
这是这期播客里我觉得最有冲击力的概念。
Karpathy 说,他最近在做一个叫”AutoResearch”的项目。核心思路是:给出目标、指标、边界,然后让系统自己跑,人不要在里面。
他举了一个例子。他在训练小模型时用了 AutoResearch,结果系统发现了他手动调参时漏掉的超参数组合,效果更好。这意味着:即便是经验丰富的研究者,在有明确指标的任务上,也可能被自主系统超越。
核心条件只有一个:任务必须有可量化的评估指标。
有指标,就能自动搜索最优解。没有指标,AutoResearch 就失去了根基。
他把这个逻辑延伸到研究组织本身。他设想用一个叫”program.md”的文件描述一个研究团队的运作方式,然后让系统自动优化这个文件:减少无效会议、调整任务分配、发现更高效的组织结构。
这不是科幻,这是他正在做的事。
04 LLM 的”参差不齐”:能力边界在哪里
Karpathy 讲了一个很有意思的观察。
他说,ChatGPT 每次让它讲笑话,讲来讲去都是同一个过时的梗。但同一个模型写代码的能力已经大幅提升。
这说明:LLM 的能力不是均匀进步的,而是在不同领域呈现”参差不齐”的状态。
为什么?因为强化学习需要可验证的反馈信号。代码对不对,运行一下就知道。笑话好不好笑,没有客观标准,也就没有清晰的训练信号。
他的结论是:AutoResearch 和 agent 自动化,最适合的是有明确客观指标的任务。写代码、优化算法、调整超参数,是完美适配场景。创意写作、品味判断、审美决策,短期内仍然是人类的主场。
这对我们判断哪些工作会被替代、哪些不会,提供了一个很实用的框架:问自己”这个任务的好坏有没有客观评估标准”,有就高风险,没有就相对安全。
05 MicroGPT:200 行 Python 的 LLM
Karpathy 有一个持续的执念:把复杂的东西剥到最核心。
他做了一个叫 MicroGPT 的项目,用 200 行 Python 实现了一个完整的 LLM。包括:数据集处理、神经网络架构、前向传播、反向传播、autograd 引擎、优化器,全部在里面。
LLM 的训练代码为什么通常几万行?因为要高效,要跑得快,要支持分布式,要支持各种硬件加速。
但如果你只关心算法本质,不关心工程效率,200 行就够了。
他说这件事的意义不只是”看,LLM 其实很简单”。更重要的是:这 200 行代码是为 agent 设计的学习材料。未来的教育,不是人直接读教材,而是 agent 读教材,然后给每个学习者定制解释。
为 agent 设计的内容,和为人类设计的内容,结构完全不同。
06 一个更大的问题
听完整期播客,我脑子里转的不是”这些技术多牛”,而是一个更朴素的问题:
你现在工作流里,有多少时间是在让 agent 等你?
Karpathy 描述的那种状态——偶尔投入几个 token 的指令,大量工作在他不在场时完成——不是遥不可及的未来,很多人已经在做了。
区别不在于工具,而在于有没有认真想过:怎么把自己移出那个循环。
来源:No Priors 播客,2026-03-20,嘉宾:Andrej Karpathy(前 OpenAI 联合创始人、Tesla AI 负责人)。