引子(3 分钟)

开场钩子:ChatGPT 的核心算法,可以用 200 行 Python 写完。不是简化版,是完整版。剩下的全是工程优化。

这是 Andrej Karpathy(前 Tesla AI 总监、OpenAI 创始成员)2026 年 2 月发布的 microgpt 项目。他花了十年把 LLM 简化到不能再简,最终浓缩成一个文件。

今天的目标:不需要你会写代码,但看完后你会真正理解 AI 在做什么——不是比喻,是字面意义上的理解。


第一部分:亲手跑一个 GPT(10 分钟)

现场演示(Google Colab)

打开 Colab 链接,点运行,全程 2-3 分钟:

  • 开始:模型输出全是乱码
  • 中间:开始出现像英文的字母组合
  • 结束:生成 “kamon”、“anna”、“lara” 这样像模像样的名字

关键问题:这些名字在训练数据里不存在。模型"发明"了它们。这跟 ChatGPT 编造假事实是完全相同的机制。

拆解这 200 行在干什么

用最直白的语言,不用任何公式:

  1. 数据:3.2 万个英文名字,就是"课本"
  2. Tokenizer:把文字变成数字(a=0, b=1, c=2…),因为计算机只认数字
  3. 模型:4192 个数字(参数),一开始全是随机的
  4. 训练:反复做一件事——
    • 给模型看名字的前几个字母
    • 模型猜下一个字母
    • 猜错了?告诉它错了多少(loss)
    • 微调那 4192 个数字,让下次猜得准一点
    • 重复几千次
  5. 推理:训练完后,给模型一个开头,它一个字母一个字母往后"猜",就生成了新名字

一句话总结:GPT 就是一个"猜下一个字的机器",不多也不少。


第二部分:从 200 行到 ChatGPT,差在哪?(10 分钟)

算法没变,工程变了

维度microgpt (200行)ChatGPT
数据3.2万名字互联网规模(万亿 token)
参数4,192 个数千亿个
训练你的笔记本,几分钟数千张 GPU,跑几个月
花费0 元数亿美元

核心观点:Transformer 架构(Attention + MLP 交替堆叠)从 2017 年到现在没有本质变化。所有 AI 公司竞争的不是算法,而是——

  • 谁有更好的数据
  • 谁有更大的算力集群
  • 谁的工程优化更极致
  • 谁的后训练(让模型变成聊天助手)做得更好

对投资判断的启示

  • 号称"自研大模型"但拿不出独特数据来源的公司 → 壁垒可疑
  • 真正的护城河:数据飞轮 + 工程规模 + 后训练 pipeline
  • 未来的竞争焦点正在从"训练"转向"推理效率"和"Agent 能力"

第三部分:揭开三个最常见的 AI 误解(10 分钟)

误解 1:“AI 理解了你说的话”

机制上,没有。模型是一个数学函数:输入 token 序列 → 输出下一个 token 的概率分布。它不"理解",它在做统计意义上的模式匹配。

但它的模式匹配能力强到了什么程度?强到大多数人分不清"理解"和"极好的模式匹配"的区别。这是它的厉害之处,也是它的危险之处。

误解 2:“幻觉是 bug,迟早会修好”

幻觉不是 bug,是特性。microgpt 生成的"karia"不存在于训练数据里——它是统计上合理但实际不存在的"名字"。ChatGPT 编造一个不存在的论文引用,机制完全相同。

模型的工作方式就是"生成统计上合理的下一个 token"。它没有"真"和"假"的概念,只有"概率高"和"概率低"。

误解 3:“AI 会取代所有工作”

回到 microgpt 的本质:它只会做一件事——预测下一个 token。ChatGPT 也是。

它不会主动"做事"。你不给它提示词,它就是一段静默的参数。AI 的天花板是使用它的人——方向、判断、审美、价值观,这些定义了 AI 产出的质量。


第四部分:普通人在 AI 时代的正确姿势(10 分钟)

不需要理解算法,但需要理解原理

今天看完 microgpt,你不需要能写出这 200 行代码,但你应该能回答:

  • LLM 的核心在做什么?(预测下一个 token)
  • 为什么会"幻觉"?(统计合理 ≠ 事实正确)
  • 为什么上下文(prompt)这么重要?(同一个模型,不同的上下文 = 完全不同的输出)

真正拉开差距的是"上下文工程"

引用今天另一篇文章的核心公式:

个人超级 Agent = 通用 Agent + 个性化上下文

你改不了模型(那是 OpenAI/Anthropic 的事),但你可以无限扩展你给 AI 的上下文。上下文越精准,AI 的输出越像"懂你的协作者"而不是"需要你从头解释一切的陌生人"。

实操建议

  1. 先用起来:每天跟 AI 对话至少 30 分钟,找到你的高频使用场景
  2. 建立你的"上下文库":把你的工作流、偏好、常用模板写成文档,每次给 AI
  3. 学会纠正而不是放弃:AI 犯错时,告诉它错在哪、应该怎么做——这些纠正就是训练数据
  4. 关注 Agent 生态:ChatGPT/Claude 只是起点,Agent(能自主执行任务的 AI)才是下一个浪潮

Q&A(10 分钟)

预设问题:

  • “我不会编程,还能玩 AI 吗?”
  • “AI 赛道还值得投资吗?现在进场晚不晚?”
  • “如何判断一个 AI 产品/公司是不是在忽悠?”

附录

资源链接

  • microgpt 源码:https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95
  • Google Colab(可直接运行):https://colab.research.google.com/drive/1vyN5zo6rqUp_dYNbT4Yrco66zuWCZKoN
  • Karpathy 博客原文:https://karpathy.github.io/2026/02/12/microgpt
  • micrograd 2.5 小时教学视频:https://www.youtube.com/watch?v=VMj-3S1tku0

延伸阅读

  • Karpathy 的 nanogpt(microgpt 的"生产版")
  • 3Blue1Brown 的神经网络可视化系列(最佳入门动画)