200 行代码理解 GPT——从 microgpt 到 ChatGPT 的完整路径

引子（3 分钟）

开场钩子：ChatGPT 的核心算法，可以用 200 行 Python 写完。不是简化版，是完整版。剩下的全是工程优化。

这是 Andrej Karpathy（前 Tesla AI 总监、OpenAI 创始成员）2026 年 2 月发布的 microgpt 项目。他花了十年把 LLM 简化到不能再简，最终浓缩成一个文件。

今天的目标：不需要你会写代码，但看完后你会真正理解 AI 在做什么——不是比喻，是字面意义上的理解。

第一部分：亲手跑一个 GPT（10 分钟）

现场演示（Google Colab）

打开 Colab 链接，点运行，全程 2-3 分钟：

开始：模型输出全是乱码
中间：开始出现像英文的字母组合
结束：生成 “kamon”、“anna”、“lara” 这样像模像样的名字

关键问题：这些名字在训练数据里不存在。模型"发明"了它们。这跟 ChatGPT 编造假事实是完全相同的机制。

拆解这 200 行在干什么

用最直白的语言，不用任何公式：

数据：3.2 万个英文名字，就是"课本"
Tokenizer：把文字变成数字（a=0, b=1, c=2…），因为计算机只认数字
模型：4192 个数字（参数），一开始全是随机的
训练：反复做一件事——
- 给模型看名字的前几个字母
- 模型猜下一个字母
- 猜错了？告诉它错了多少（loss）
- 微调那 4192 个数字，让下次猜得准一点
- 重复几千次
推理：训练完后，给模型一个开头，它一个字母一个字母往后"猜"，就生成了新名字

一句话总结：GPT 就是一个"猜下一个字的机器"，不多也不少。

第二部分：从 200 行到 ChatGPT，差在哪？（10 分钟）

算法没变，工程变了

维度	microgpt (200行)	ChatGPT
数据	3.2万名字	互联网规模（万亿 token）
参数	4,192 个	数千亿个
训练	你的笔记本，几分钟	数千张 GPU，跑几个月
花费	0 元	数亿美元

核心观点：Transformer 架构（Attention + MLP 交替堆叠）从 2017 年到现在没有本质变化。所有 AI 公司竞争的不是算法，而是——

谁有更好的数据
谁有更大的算力集群
谁的工程优化更极致
谁的后训练（让模型变成聊天助手）做得更好

对投资判断的启示

号称"自研大模型"但拿不出独特数据来源的公司 → 壁垒可疑
真正的护城河：数据飞轮 + 工程规模 + 后训练 pipeline
未来的竞争焦点正在从"训练"转向"推理效率"和"Agent 能力"

第三部分：揭开三个最常见的 AI 误解（10 分钟）

误解 1：“AI 理解了你说的话”

机制上，没有。模型是一个数学函数：输入 token 序列 → 输出下一个 token 的概率分布。它不"理解"，它在做统计意义上的模式匹配。

但它的模式匹配能力强到了什么程度？强到大多数人分不清"理解"和"极好的模式匹配"的区别。这是它的厉害之处，也是它的危险之处。

误解 2：“幻觉是 bug，迟早会修好”

幻觉不是 bug，是特性。microgpt 生成的"karia"不存在于训练数据里——它是统计上合理但实际不存在的"名字"。ChatGPT 编造一个不存在的论文引用，机制完全相同。

模型的工作方式就是"生成统计上合理的下一个 token"。它没有"真"和"假"的概念，只有"概率高"和"概率低"。

误解 3：“AI 会取代所有工作”

回到 microgpt 的本质：它只会做一件事——预测下一个 token。ChatGPT 也是。

它不会主动"做事"。你不给它提示词，它就是一段静默的参数。AI 的天花板是使用它的人——方向、判断、审美、价值观，这些定义了 AI 产出的质量。

第四部分：普通人在 AI 时代的正确姿势（10 分钟）

不需要理解算法，但需要理解原理

今天看完 microgpt，你不需要能写出这 200 行代码，但你应该能回答：

LLM 的核心在做什么？（预测下一个 token）
为什么会"幻觉"？（统计合理 ≠ 事实正确）
为什么上下文（prompt）这么重要？（同一个模型，不同的上下文 = 完全不同的输出）

真正拉开差距的是"上下文工程"

引用今天另一篇文章的核心公式：

个人超级 Agent = 通用 Agent + 个性化上下文

你改不了模型（那是 OpenAI/Anthropic 的事），但你可以无限扩展你给 AI 的上下文。上下文越精准，AI 的输出越像"懂你的协作者"而不是"需要你从头解释一切的陌生人"。

实操建议

先用起来：每天跟 AI 对话至少 30 分钟，找到你的高频使用场景
建立你的"上下文库"：把你的工作流、偏好、常用模板写成文档，每次给 AI
学会纠正而不是放弃：AI 犯错时，告诉它错在哪、应该怎么做——这些纠正就是训练数据
关注 Agent 生态：ChatGPT/Claude 只是起点，Agent（能自主执行任务的 AI）才是下一个浪潮

Q&A（10 分钟）

预设问题：

“我不会编程，还能玩 AI 吗？”
“AI 赛道还值得投资吗？现在进场晚不晚？”
“如何判断一个 AI 产品/公司是不是在忽悠？”

附录

资源链接

microgpt 源码：https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95
Google Colab（可直接运行）：https://colab.research.google.com/drive/1vyN5zo6rqUp_dYNbT4Yrco66zuWCZKoN
Karpathy 博客原文：https://karpathy.github.io/2026/02/12/microgpt
micrograd 2.5 小时教学视频：https://www.youtube.com/watch?v=VMj-3S1tku0

引子（3 分钟）#

第一部分：亲手跑一个 GPT（10 分钟）#

现场演示（Google Colab）#

拆解这 200 行在干什么#

第二部分：从 200 行到 ChatGPT，差在哪？（10 分钟）#

算法没变，工程变了#

对投资判断的启示#

第三部分：揭开三个最常见的 AI 误解（10 分钟）#

误解 1：“AI 理解了你说的话”#

误解 2：“幻觉是 bug，迟早会修好”#

误解 3：“AI 会取代所有工作”#

第四部分：普通人在 AI 时代的正确姿势（10 分钟）#

不需要理解算法，但需要理解原理#

真正拉开差距的是"上下文工程"#

实操建议#

Q&A（10 分钟）#

附录#

资源链接#

延伸阅读#