廉价生成与理解的脆弱性

thogiti
发布于 2026-01-02 08:14
阅读 444

文章探讨了在AI技术快速发展的背景下，理解的价值并未自然而然地提升。文章通过分析市场价值与内在效用的区别，以及AI在代码生成和知识学习中的潜在风险，强调了真实世界模型的重要性。文章还讨论了机构和教育在激励真实知识和避免“理货崇拜式认识论”方面的作用，最终强调了保持真理与奖励机制紧密结合的重要性。

关于 AI 的对话中，经常出现一句话，通常带着乐观的色彩：

> “当记忆变得廉价时，理解就变得有价值。”

有时它会以技术性的面貌出现：

> “当代码生产变得廉价时，验证就变得有价值。”

这个说法听起来像是简单的经济学：当一件事变得更便宜时，稀缺的东西就变得更有价值。
但这个故事偷偷地带入了一个前提：奖励会自行转向理解。

它们可能会。也可能不会。

因为“价值”有两种不同的类型。

---

## 两种价值

有市场价值：薪水、声望、晋升、资金、关注。

还有内在效用：让飞机保持在天空中的东西。

乐观的引言假设这些保持一致。它假设机构和市场能够可靠地识别并奖励验证、判断和责任。

我担心的是更简单的事情：验证可能会在很长一段时间内被低估。反馈来得晚。成本被分摊。其他人承担失败。在那个世界里，“足够好”可以获胜很多年。

---

## 终端、Agent 和通过检查学习

一个新的模式正在蔓延。

有人在几个月内花费数十亿 token，完全通过终端。一个 AI Agent 编写了他们自己无法编写的代码。他们发布了一个个人网站、CLI、团队采用的内部工具、“包装”产品、自动化实验，甚至是交易和监控系统。

他们说了一些重要的事情：

*“我不阅读代码。但我虔诚地阅读 Agent 的输出。”*

现在，工作流程已经很熟悉了：启动一个 repo，提供上下文，询问计划，链接文档，让 Agent 运行，观看流，在失败时中断，运行服务器，测试，迭代。然后调整一个 `agents.md`，以便下次启动时更干净。添加端到端测试，因为你已经厌倦了应该被捕获的错误。

这类似于学徒制，但有一个问题。

在学徒制中，师傅会传授可靠的能力。在这里，“老师”是一个概率引擎。人类通过运行一个循环来学习：提出、构建、打破、修补、重复。

这与其说是“向师傅学习”，不如说是在控制论循环内部通过检查进行学习。

这个循环可以教会你真正的东西。它也可以在你构建出一个能够经受住现实考验的模型之前，创造一种令人信服的掌握感。

人们开始将三种不同的结果视为同一件事：交付（运行的**artifacts**）、学习（迭代和反馈）以及理解（在条件变化时仍然有效的预测模型）。

> 提示：对 LLM 生成代码失败进行分类的大规模研究显示了你所期望的模式，模型可以生成可运行的代码，但仍然系统性地遗漏更深层的失败模式。一项调查式的深入研究引用了手动检查数百个 LLM 生成代码错误的工作，并将它们分组为重复出现的错误类别。[1]

---

## 什么变得廉价了（以及什么没有）

AI 降低了生成看似合理的 **artifacts** 的成本：可以编译的代码、可以让人信服的计划、可以**demo**的功能。

默认情况下，它没有降低的是形成你所构建的内部模型的成本：它的假设、它的不变性、它的失败模式，以及世界穿透你的抽象概念的地方。

Agent 可以超越你的模型构建速度。这种差距是脆弱性积累的地方。

---

## 理解是世界模型的质量

理解不是一种情绪。它不是“我觉得我明白了”。它是预测变化下会发生什么的能力。

大多数严重的失败都不是语法错误或干净的逻辑矛盾。它们是系统内部模型与其嵌入的世界之间的不匹配。

而且世界不是二元的。“真”和“假”通常位于长链的末端：测量、上下文、激励和解释。理解存在于这些链条内部。

---

## 一个小的思想实验：软件存在于时间中

想象一下，你用一个 Agent 构建了一个小型服务。它观察信号，做出决定，采取行动。在本地它可以工作。在**staging**环境中它可以工作。你部署它，它再次工作。

现在改变一个无聊的变量：

时间。

在你的编辑器中，Agent 看到的是静态文件和一个静态的上下文窗口。在生产环境中，软件存在于时间中。事件重叠。请求竞争。一个 **webhook** 重试。一个进程在“读取”和“写入”之间重新启动。没有任何对抗。只是正常的操作。

该系统在大多数时候仍然“工作”。如果你只是随意地检查结果，它甚至看起来是正确的。但是在中间的某个地方，状态更新了两次，或者根本没有更新，或者顺序错误。

一个浅层的模型说：“如果 A，那么 B。”
一个世界模型问：“如果 A 发生，并且 B 在一半的过程中发生，并且 C 失败，那么 D 处于什么状态？”

静态文本和动态时间之间的差距是脆弱性隐藏的地方。

这就是为什么测试可以让人感觉是智慧。不是因为它们在道德上是好的，而是因为它们迫使你的模型面对并发、重试、部分失败和漂移。

---

## 什么时候交付就是学习（什么时候不是）

终端和 Agent 的工作流程可以快速地教会你。

你在你的能力之前交付。你失败了。你问“为什么这个坏了？”你的模型变得更加充实。

但是交付也可能变成一个陷阱：你可以生成许多 **artifacts**，但永远无法构建出能够预测重要失败的那种模型。尤其是在 Agent 擅长重现的模式之外。

这就是一个新的“技术阶层”出现的地方：那些可以很好地驾驶 Agent 并快速交付的人，但他们的深度取决于他们的循环是否包括真正的压力测试，而不仅仅是迭代直到**demo**通过。

---

## 一个最小的激励模型：为什么马虎可以获胜

回到市场价值的主张。

让 **artifact** 的生产变得廉价。让验证保持昂贵。让失败在晋升、融资、发布和媒体报道之后才姗姗来迟。

如果奖励更多地跟踪可见的输出，而不是经过验证的正确性，那么输出就成为合理的策略。验证变成了一种具有不确定回报的成本。

将它写成一个粗略的效用：

$$
R = \alpha \cdot O - \beta \cdot C
$$

$O$ 是可见的输出，$C$ 是验证的成本。

如果错误成本来得晚，或者难以归因，或者由其他人支付，那么 $\beta$ 实际上会被折扣。即使长期价值崩溃，该系统也会选择以输出为主导的行为。

这不会产生直接的混乱。它会产生漂移。

而且漂移看起来可能像是进步：更快的交付，更流畅的叙述，更合理的 **artifacts**。

直到账单到来。

如果你想要一个具体的图像：**Knight Capital**。2012 年 8 月 1 日，一个例行的软件部署激活了 Knight 自动路由器中的一个有缺陷的代码路径。在交易的头 45 分钟内，它在尝试完成 212 个客户订单时发送了超过 400 万个无意的订单，建立了大量不需要的头寸，并损失了超过 4.6 亿美元。同一天，内部系统在市场开盘前生成了 97 封自动电子邮件，标记了一个错误情况，但它们没有被视为可操作的警报 [2]。

该系统不是逐渐失败的。它是突然失败的，正是因为它的脆弱性被多年的正常运营和未被理会的警告所掩盖。

一个简洁的草图：

| 因素 | 前 AI | 后 AI |
|--------|--------|---------|
| **Artifact** 生产成本 | 高 | 低 |
| 验证成本 | 高 | 仍然很高 |
| 奖励与输出与真相的联系 | 松散 | 除非强制要求，否则通常更松散 |
| 可能的结果 | 缓慢漂移 | 更快漂移 |

一个合理的反对意见是，AI 也可以降低验证成本：测试、静态分析、形式化方法、异常检测。它可以。但前提是需要验证。否则，它会降低真相和似是而非的废话的成本，并且选择会遵循得到奖励的东西。

---

## 流形：AI 安全的地方，以及它不知道自己迷失的地方

一个语言模型被训练来预测下一个 **token**。实际上，它会学习在其训练分布下，哪些延续看起来是合理的 [3]。

在该分布内部，它可以非常有用。在它之外，会发生其他事情：即使模型已经失去了立足点，它也会继续产生流畅的输出。它没有内置的“你已离开地图”传感器。

将流形视为真实示例聚集的安全区域。

![AI pper 流形隐喻](https://img.learnblockchain.cn/2026/01/02/AI-paper-manifold-metaphor.png)

*来源：图像由 Google Gemini AI 生成*

*(想象一张薄而皱巴巴的纸漂浮在一个大的空房间里。这张纸就是流形：数据存在并且模式得到支持的区域。空空气是可能的废话的空间。该模型被训练为继续纸上的曲线；它将以同样的信心将曲线延伸到空中。)*

这就是“AI 马虎”出现的方式：流畅的语言，但基础薄弱。不是欺骗。在代理目标下进行优化。

---

## 机构也有流形

组织会发展出它们自己的安全区域。

过去的成功定义了“什么有效”。指标定义了什么会得到奖励。与**proxy**匹配的行为会生存下来。

在该区域内，决策感觉是合理的。当世界发生变化时，**proxy** 可能会崩溃。该组织仍然会对其进行优化，因为这就是奖励函数的设置方式。

AI 加速了这种失败模式。它提高了机构流形内部合理生产的速度，而没有改善机构的世界模型。

---

## 货物崇拜认识论，已更新

理查德·费曼的警告是关于采用知识的形式，而没有让你保持诚实的纪律。

在他 1974 年的“货物崇拜科学”演讲中，他简单地提出了第一原则：你绝不能欺骗自己，因为你最容易被欺骗 [4]。

AI 使我们更容易大规模地欺骗自己。

你可以生成洞察力的语言，而没有洞察力的结构。你可以自信地交付，而不知道系统在哪里崩溃。

风险不是 AI 是错误的。风险是机构停止为会找出它在何处错误的工作付费。

---

## 这对教育意味着什么

教育，在其最佳状态下，训练世界模型。

一个记忆公式的学生可以产生答案。一个可以预测变化下会发生什么的学生具有理解能力。

AI 使答案变得廉价。它不会使世界模型变得廉价。

如果学校奖励流畅的输出而不是模型质量（改变条件下的预测、实验设计、失败分析），AI 会将学习者推向最简单的道路：在熟悉的流形中生成合理的 **artifacts**。

如果学校奖励与现实的对抗，AI 可以提供帮助。工具不是决定性因素。

激励结构才是。

---

## 回到最初的主张

所以回到最初的句子：

> “当记忆变得廉价时，理解就变得有价值。”

这不是自然规律。这是一个条件语句。

只有当系统被构建为注意到它、奖励它并使其与现实保持联系时，理解才会变得在市场上具有价值。如果没有这种联系，廉价的生成就会与理解竞争，而不是提升理解。

模型不会感到困惑。它们优化我们给它们的**objective**。

当我们把它们的优化与我们的理解混淆时，危机就开始了。

所以真正的问题仍然是一样的：

什么激励结构可以使真相与奖励保持联系？

## 参考文献
[^1]: [对大型语言模型代码生成错误的深入研究：是什么以及为什么？](https://arxiv.org/html/2411.01414v2)

[^2]: [关于 Knight Capital Americas LLC 的事项](https://www.sec.gov/files/litigation/admin/2013/34-70694.pdf)

[^3]: [Transformer 注意力的贝叶斯几何](https://www.arxiv.org/abs/2512.22471)

[^4]: [理查德·费曼：“第一原则是你绝不能欺骗自己。”货物崇拜科学演讲，加州理工学院 - 1974](https://speakola.com/grad/richard-feynman-caltech-1974)

>- 原文链接： [github.com/thogiti/thogi...](https://github.com/thogiti/thogiti.github.io/blob/master/_posts/2026-01-01-AI-fragility-of-understanding.md)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

关于 AI 的对话中，经常出现一句话，通常带着乐观的色彩：

“当记忆变得廉价时，理解就变得有价值。”

有时它会以技术性的面貌出现：

“当代码生产变得廉价时，验证就变得有价值。”

这个说法听起来像是简单的经济学：当一件事变得更便宜时，稀缺的东西就变得更有价值。但这个故事偷偷地带入了一个前提：奖励会自行转向理解。

它们可能会。也可能不会。

因为“价值”有两种不同的类型。

两种价值

有市场价值：薪水、声望、晋升、资金、关注。

还有内在效用：让飞机保持在天空中的东西。

乐观的引言假设这些保持一致。它假设机构和市场能够可靠地识别并奖励验证、判断和责任。

终端、Agent 和通过检查学习

一个新的模式正在蔓延。

他们说了一些重要的事情：

“我不阅读代码。但我虔诚地阅读 Agent 的输出。”

现在，工作流程已经很熟悉了：启动一个 repo，提供上下文，询问计划，链接文档，让 Agent 运行，观看流，在失败时中断，运行服务器，测试，迭代。然后调整一个 agents.md，以便下次启动时更干净。添加端到端测试，因为你已经厌倦了应该被捕获的错误。

这类似于学徒制，但有一个问题。

在学徒制中，师傅会传授可靠的能力。在这里，“老师”是一个概率引擎。人类通过运行一个循环来学习：提出、构建、打破、修补、重复。

这与其说是“向师傅学习”，不如说是在控制论循环内部通过检查进行学习。

这个循环可以教会你真正的东西。它也可以在你构建出一个能够经受住现实考验的模型之前，创造一种令人信服的掌握感。

人们开始将三种不同的结果视为同一件事：交付（运行的artifacts）、学习（迭代和反馈）以及理解（在条件变化时仍然有效的预测模型）。

提示：对 LLM 生成代码失败进行分类的大规模研究显示了你所期望的模式，模型可以生成可运行的代码，但仍然系统性地遗漏更深层的失败模式。一项调查式的深入研究引用了手动检查数百个 LLM 生成代码错误的工作，并将它们分组为重复出现的错误类别。[1]

什么变得廉价了（以及什么没有）

AI 降低了生成看似合理的 artifacts 的成本：可以编译的代码、可以让人信服的计划、可以demo的功能。

默认情况下，它没有降低的是形成你所构建的内部模型的成本：它的假设、它的不变性、它的失败模式，以及世界穿透你的抽象概念的地方。

Agent 可以超越你的模型构建速度。这种差距是脆弱性积累的地方。

理解是世界模型的质量

理解不是一种情绪。它不是“我觉得我明白了”。它是预测变化下会发生什么的能力。

大多数严重的失败都不是语法错误或干净的逻辑矛盾。它们是系统内部模型与其嵌入的世界之间的不匹配。

而且世界不是二元的。“真”和“假”通常位于长链的末端：测量、上下文、激励和解释。理解存在于这些链条内部。

一个小的思想实验：软件存在于时间中

想象一下，你用一个 Agent 构建了一个小型服务。它观察信号，做出决定，采取行动。在本地它可以工作。在staging环境中它可以工作。你部署它，它再次工作。

现在改变一个无聊的变量：

时间。

在你的编辑器中，Agent 看到的是静态文件和一个静态的上下文窗口。在生产环境中，软件存在于时间中。事件重叠。请求竞争。一个 webhook 重试。一个进程在“读取”和“写入”之间重新启动。没有任何对抗。只是正常的操作。

一个浅层的模型说：“如果 A，那么 B。” 一个世界模型问：“如果 A 发生，并且 B 在一半的过程中发生，并且 C 失败，那么 D 处于什么状态？”

静态文本和动态时间之间的差距是脆弱性隐藏的地方。

这就是为什么测试可以让人感觉是智慧。不是因为它们在道德上是好的，而是因为它们迫使你的模型面对并发、重试、部分失败和漂移。

什么时候交付就是学习（什么时候不是）

终端和 Agent 的工作流程可以快速地教会你。

你在你的能力之前交付。你失败了。你问“为什么这个坏了？”你的模型变得更加充实。

但是交付也可能变成一个陷阱：你可以生成许多 artifacts，但永远无法构建出能够预测重要失败的那种模型。尤其是在 Agent 擅长重现的模式之外。

这就是一个新的“技术阶层”出现的地方：那些可以很好地驾驶 Agent 并快速交付的人，但他们的深度取决于他们的循环是否包括真正的压力测试，而不仅仅是迭代直到demo通过。

一个最小的激励模型：为什么马虎可以获胜

回到市场价值的主张。

让 artifact 的生产变得廉价。让验证保持昂贵。让失败在晋升、融资、发布和媒体报道之后才姗姗来迟。

如果奖励更多地跟踪可见的输出，而不是经过验证的正确性，那么输出就成为合理的策略。验证变成了一种具有不确定回报的成本。

将它写成一个粗略的效用：

$$ R = \alpha \cdot O - \beta \cdot C $$

$O$ 是可见的输出，$C$ 是验证的成本。

如果错误成本来得晚，或者难以归因，或者由其他人支付，那么 $\beta$ 实际上会被折扣。即使长期价值崩溃，该系统也会选择以输出为主导的行为。

这不会产生直接的混乱。它会产生漂移。

而且漂移看起来可能像是进步：更快的交付，更流畅的叙述，更合理的 artifacts。

直到账单到来。

如果你想要一个具体的图像：Knight Capital。2012 年 8 月 1 日，一个例行的软件部署激活了 Knight 自动路由器中的一个有缺陷的代码路径。在交易的头 45 分钟内，它在尝试完成 212 个客户订单时发送了超过 400 万个无意的订单，建立了大量不需要的头寸，并损失了超过 4.6 亿美元。同一天，内部系统在市场开盘前生成了 97 封自动电子邮件，标记了一个错误情况，但它们没有被视为可操作的警报 [2]。

该系统不是逐渐失败的。它是突然失败的，正是因为它的脆弱性被多年的正常运营和未被理会的警告所掩盖。

一个简洁的草图：

因素	前 AI	后 AI
Artifact 生产成本	高	低
验证成本	高	仍然很高
奖励与输出与真相的联系	松散	除非强制要求，否则通常更松散
可能的结果	缓慢漂移	更快漂移

流形：AI 安全的地方，以及它不知道自己迷失的地方

一个语言模型被训练来预测下一个 token。实际上，它会学习在其训练分布下，哪些延续看起来是合理的 [3]。

将流形视为真实示例聚集的安全区域。

来源：图像由 Google Gemini AI 生成

(想象一张薄而皱巴巴的纸漂浮在一个大的空房间里。这张纸就是流形：数据存在并且模式得到支持的区域。空空气是可能的废话的空间。该模型被训练为继续纸上的曲线；它将以同样的信心将曲线延伸到空中。)

这就是“AI 马虎”出现的方式：流畅的语言，但基础薄弱。不是欺骗。在代理目标下进行优化。

机构也有流形

组织会发展出它们自己的安全区域。

过去的成功定义了“什么有效”。指标定义了什么会得到奖励。与proxy匹配的行为会生存下来。

在该区域内，决策感觉是合理的。当世界发生变化时，proxy 可能会崩溃。该组织仍然会对其进行优化，因为这就是奖励函数的设置方式。