廉价生成与理解的脆弱性

  • thogiti
  • 发布于 16小时前
  • 阅读 29

文章探讨了在AI技术快速发展的背景下,理解的价值并未自然而然地提升。文章通过分析市场价值与内在效用的区别,以及AI在代码生成和知识学习中的潜在风险,强调了真实世界模型的重要性。文章还讨论了机构和教育在激励真实知识和避免“理货崇拜式认识论”方面的作用,最终强调了保持真理与奖励机制紧密结合的重要性。

关于 AI 的对话中,经常出现一句话,通常带着乐观的色彩:

“当记忆变得廉价时,理解就变得有价值。”

有时它会以技术性的面貌出现:

“当代码生产变得廉价时,验证就变得有价值。”

这个说法听起来像是简单的经济学:当一件事变得更便宜时,稀缺的东西就变得更有价值。 但这个故事偷偷地带入了一个前提:奖励会自行转向理解。

它们可能会。也可能不会。

因为“价值”有两种不同的类型。


两种价值

有市场价值:薪水、声望、晋升、资金、关注。

还有内在效用:让飞机保持在天空中的东西。

乐观的引言假设这些保持一致。它假设机构和市场能够可靠地识别并奖励验证、判断和责任。

我担心的是更简单的事情:验证可能会在很长一段时间内被低估。反馈来得晚。成本被分摊。其他人承担失败。在那个世界里,“足够好”可以获胜很多年。


终端、Agent 和通过检查学习

一个新的模式正在蔓延。

有人在几个月内花费数十亿 token,完全通过终端。一个 AI Agent 编写了他们自己无法编写的代码。他们发布了一个个人网站、CLI、团队采用的内部工具、“包装”产品、自动化实验,甚至是交易和监控系统。

他们说了一些重要的事情:

“我不阅读代码。但我虔诚地阅读 Agent 的输出。”

现在,工作流程已经很熟悉了:启动一个 repo,提供上下文,询问计划,链接文档,让 Agent 运行,观看流,在失败时中断,运行服务器,测试,迭代。然后调整一个 agents.md,以便下次启动时更干净。添加端到端测试,因为你已经厌倦了应该被捕获的错误。

这类似于学徒制,但有一个问题。

在学徒制中,师傅会传授可靠的能力。在这里,“老师”是一个概率引擎。人类通过运行一个循环来学习:提出、构建、打破、修补、重复。

这与其说是“向师傅学习”,不如说是在控制论循环内部通过检查进行学习。

这个循环可以教会你真正的东西。它也可以在你构建出一个能够经受住现实考验的模型之前,创造一种令人信服的掌握感。

人们开始将三种不同的结果视为同一件事:交付(运行的artifacts)、学习(迭代和反馈)以及理解(在条件变化时仍然有效的预测模型)。

提示:对 LLM 生成代码失败进行分类的大规模研究显示了你所期望的模式,模型可以生成可运行的代码,但仍然系统性地遗漏更深层的失败模式。一项调查式的深入研究引用了手动检查数百个 LLM 生成代码错误的工作,并将它们分组为重复出现的错误类别。[1]


什么变得廉价了(以及什么没有)

AI 降低了生成看似合理的 artifacts 的成本:可以编译的代码、可以让人信服的计划、可以demo的功能。

默认情况下,它没有降低的是形成你所构建的内部模型的成本:它的假设、它的不变性、它的失败模式,以及世界穿透你的抽象概念的地方。

Agent 可以超越你的模型构建速度。这种差距是脆弱性积累的地方。


理解是世界模型的质量

理解不是一种情绪。它不是“我觉得我明白了”。它是预测变化下会发生什么的能力。

大多数严重的失败都不是语法错误或干净的逻辑矛盾。它们是系统内部模型与其嵌入的世界之间的不匹配。

而且世界不是二元的。“真”和“假”通常位于长链的末端:测量、上下文、激励和解释。理解存在于这些链条内部。


一个小的思想实验:软件存在于时间中

想象一下,你用一个 Agent 构建了一个小型服务。它观察信号,做出决定,采取行动。在本地它可以工作。在staging环境中它可以工作。你部署它,它再次工作。

现在改变一个无聊的变量:

时间。

在你的编辑器中,Agent 看到的是静态文件和一个静态的上下文窗口。在生产环境中,软件存在于时间中。事件重叠。请求竞争。一个 webhook 重试。一个进程在“读取”和“写入”之间重新启动。没有任何对抗。只是正常的操作。

该系统在大多数时候仍然“工作”。如果你只是随意地检查结果,它甚至看起来是正确的。但是在中间的某个地方,状态更新了两次,或者根本没有更新,或者顺序错误。

一个浅层的模型说:“如果 A,那么 B。” 一个世界模型问:“如果 A 发生,并且 B 在一半的过程中发生,并且 C 失败,那么 D 处于什么状态?”

静态文本和动态时间之间的差距是脆弱性隐藏的地方。

这就是为什么测试可以让人感觉是智慧。不是因为它们在道德上是好的,而是因为它们迫使你的模型面对并发、重试、部分失败和漂移。


什么时候交付就是学习(什么时候不是)

终端和 Agent 的工作流程可以快速地教会你。

你在你的能力之前交付。你失败了。你问“为什么这个坏了?”你的模型变得更加充实。

但是交付也可能变成一个陷阱:你可以生成许多 artifacts,但永远无法构建出能够预测重要失败的那种模型。尤其是在 Agent 擅长重现的模式之外。

这就是一个新的“技术阶层”出现的地方:那些可以很好地驾驶 Agent 并快速交付的人,但他们的深度取决于他们的循环是否包括真正的压力测试,而不仅仅是迭代直到demo通过。


一个最小的激励模型:为什么马虎可以获胜

回到市场价值的主张。

artifact 的生产变得廉价。让验证保持昂贵。让失败在晋升、融资、发布和媒体报道之后才姗姗来迟。

如果奖励更多地跟踪可见的输出,而不是经过验证的正确性,那么输出就成为合理的策略。验证变成了一种具有不确定回报的成本。

将它写成一个粗略的效用:

$$ R = \alpha \cdot O - \beta \cdot C $$

$O$ 是可见的输出,$C$ 是验证的成本。

如果错误成本来得晚,或者难以归因,或者由其他人支付,那么 $\beta$ 实际上会被折扣。即使长期价值崩溃,该系统也会选择以输出为主导的行为。

这不会产生直接的混乱。它会产生漂移。

而且漂移看起来可能像是进步:更快的交付,更流畅的叙述,更合理的 artifacts

直到账单到来。

如果你想要一个具体的图像:Knight Capital。2012 年 8 月 1 日,一个例行的软件部署激活了 Knight 自动路由器中的一个有缺陷的代码路径。在交易的头 45 分钟内,它在尝试完成 212 个客户订单时发送了超过 400 万个无意的订单,建立了大量不需要的头寸,并损失了超过 4.6 亿美元。同一天,内部系统在市场开盘前生成了 97 封自动电子邮件,标记了一个错误情况,但它们没有被视为可操作的警报 [2]。

该系统不是逐渐失败的。它是突然失败的,正是因为它的脆弱性被多年的正常运营和未被理会的警告所掩盖。

一个简洁的草图:

因素 前 AI 后 AI
Artifact 生产成本
验证成本 仍然很高
奖励与输出与真相的联系 松散 除非强制要求,否则通常更松散
可能的结果 缓慢漂移 更快漂移

一个合理的反对意见是,AI 也可以降低验证成本:测试、静态分析、形式化方法、异常检测。它可以。但前提是需要验证。否则,它会降低真相和似是而非的废话的成本,并且选择会遵循得到奖励的东西。


流形:AI 安全的地方,以及它不知道自己迷失的地方

一个语言模型被训练来预测下一个 token。实际上,它会学习在其训练分布下,哪些延续看起来是合理的 [3]。

在该分布内部,它可以非常有用。在它之外,会发生其他事情:即使模型已经失去了立足点,它也会继续产生流畅的输出。它没有内置的“你已离开地图”传感器。

将流形视为真实示例聚集的安全区域。

AI pper 流形隐喻

来源:图像由 Google Gemini AI 生成

(想象一张薄而皱巴巴的纸漂浮在一个大的空房间里。这张纸就是流形:数据存在并且模式得到支持的区域。空空气是可能的废话的空间。该模型被训练为继续纸上的曲线;它将以同样的信心将曲线延伸到空中。)

这就是“AI 马虎”出现的方式:流畅的语言,但基础薄弱。不是欺骗。在代理目标下进行优化。


机构也有流形

组织会发展出它们自己的安全区域。

过去的成功定义了“什么有效”。指标定义了什么会得到奖励。与proxy匹配的行为会生存下来。

在该区域内,决策感觉是合理的。当世界发生变化时,proxy 可能会崩溃。该组织仍然会对其进行优化,因为这就是奖励函数的设置方式。

AI 加速了这种失败模式。它提高了机构流形内部合理生产的速度,而没有改善机构的世界模型。


货物崇拜认识论,已更新

理查德·费曼的警告是关于采用知识的形式,而没有让你保持诚实的纪律。

在他 1974 年的“货物崇拜科学”演讲中,他简单地提出了第一原则:你绝不能欺骗自己,因为你最容易被欺骗 [4]。

AI 使我们更容易大规模地欺骗自己。

你可以生成洞察力的语言,而没有洞察力的结构。你可以自信地交付,而不知道系统在哪里崩溃。

风险不是 AI 是错误的。风险是机构停止为会找出它在何处错误的工作付费。


这对教育意味着什么

教育,在其最佳状态下,训练世界模型。

一个记忆公式的学生可以产生答案。一个可以预测变化下会发生什么的学生具有理解能力。

AI 使答案变得廉价。它不会使世界模型变得廉价。

如果学校奖励流畅的输出而不是模型质量(改变条件下的预测、实验设计、失败分析),AI 会将学习者推向最简单的道路:在熟悉的流形中生成合理的 artifacts

如果学校奖励与现实的对抗,AI 可以提供帮助。工具不是决定性因素。

激励结构才是。


回到最初的主张

所以回到最初的句子:

“当记忆变得廉价时,理解就变得有价值。”

这不是自然规律。这是一个条件语句。

只有当系统被构建为注意到它、奖励它并使其与现实保持联系时,理解才会变得在市场上具有价值。如果没有这种联系,廉价的生成就会与理解竞争,而不是提升理解。

模型不会感到困惑。它们优化我们给它们的objective

当我们把它们的优化与我们的理解混淆时,危机就开始了。

所以真正的问题仍然是一样的:

什么激励结构可以使真相与奖励保持联系?

参考文献

[^2]: 关于 Knight Capital Americas LLC 的事项

[^3]: Transformer 注意力的贝叶斯几何

[^4]: 理查德·费曼:“第一原则是你绝不能欺骗自己。”货物崇拜科学演讲,加州理工学院 - 1974

  • 原文链接: github.com/thogiti/thogi...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
thogiti
thogiti
https://thogiti.github.io/