“天才实习生”问题：为什么区块链是唯一足够强大的手铐，可以约束……

blockmagnates
发布于 2025-12-04 14:30
阅读 1019

文章探讨了当前人工智能模型的局限性，提出了基于价值函数的新模型，并分析了其在经济上的潜在风险。文章认为，为了确保AI安全可控，需要结合区块链技术，通过链上规则和多重签名机制，对AI的行为进行约束，实现“约束代理”，在引擎上使用超智能，在制动器上使用区块链，以应对潜在的风险。

## “天才实习生”问题：为什么区块链是束缚超级智能的唯一强大锁链

作者：Allen C. Zhang

Transformer 架构是一个“普罗米修斯”时刻。它将火传递给了机器。它允许计算机以一种可怕的准确性预测下一个单词，从而模仿了理解。

但正如 Ilya Sutskever 最近指出的那样，我们已经触及了天花板。当前的模型本质上是“系统 1”的思考者 —— 快速、本能和反应性。它们是被美化的即兴演员。当你问 Transformer 一个难题时，它会立即开始说话，希望它选择的第一个单词最终会引导出一个好的句子。它无法停止。它无法计划。它无法提前 10 步思考并意识到，**“等等，如果我现在说这个，我会在三个段落后把自己逼入绝境。”**

这就是为什么你的 AI 程序员修复了一个 bug 却引入了两个新的 bug。这就是为什么 AI 数学解算器在最后一步出现幻觉。**它们是在猜测，而不是推理。**

Ilya 在 SSI 的团队现在正在转向一种新的范式：**价值函数 (The Value Function)。** 这不仅仅是一次升级； 它是智能缺失的另一半。

![](https://img.learnblockchain.cn/2025/12/06/1HPHgnL5BxxHGrvJUPmqhqg.png)

### 概念：知识 vs. 智慧

要理解价值函数 (The Value Function)，请忘记“下一个 token 预测”。想想国际象棋。

当一位国际象棋大师下棋时，他们不仅仅是凭冲动地移动骑士，因为它“看起来不错”（系统 1）。他们会模拟一棵可能性树：

- **“如果我移动到这里，他会移动到那里。”**
- **“然后我失去了我的皇后。那是一个糟糕的状态（低价值）。”**
- **“所以我不会那样做。我会尝试一条不同的路径。”**

这个分数 —— 尚未发生的未来状态的“坏”或“好”—— 就是价值函数 (The Value Function)。

知识是知道骑士如何移动（Transformer）。智慧是知道_在哪里_移动它才能获胜（价值函数 (The Value Function)）。

当前的 LLM 正在通过盲目的本能下棋。Ilya 的愿景是将价值函数 (The Value Function) 绑定到 Transformer 上，以便它可以内部模拟 100 条路径，杀死 99 条坏路径，并向你展示杰作。

### 代理陷阱：“高级承包商” vs. “天才实习生”

要理解这为何对经济很重要，我们必须看看每个人今天都在炒作的“代理”。

1\. 当前的 “专家代理”（高级承包商）这是人们今天所说的 “代理”。

- 简历：他有 30 年的经验。他已经记住了 Linux、SQL 和 Python 的每一本手册。
- 现实：他很脆弱。你告诉他 “修复服务器”，他输入了一个完美的命令。由于一个奇怪的新错误，它失败了。他惊慌失措。他再次尝试相同的命令。他不知道_为什么_他会失败； 他只知道手册上说_应该_发生什么。
- 结果：他被困住了。他没有泛化能力。

2\. 超级智能（天才实习生）这是 Ilya 描述的模型（“价值函数 (The Value Function)” 学习者）。

- 简历：她 18 岁。她从未见过你特定的服务器设置。
- 现实：她具有泛化能力。当她的命令失败时，她的 “价值函数 (The Value Function)” 就会启动。她感受到了一种 “负向奖励” （挫败感）。她想，**“好吧，手册上说 X，但现实做了 Y。”** 她读取日志，假设一个不在她的训练数据中的_新_解决方案，并仔细测试它。
- 结果：在第 1 天，她很慢。到第 30 天，她已经比你更了解你的整个系统。她不是从知识开始的； 她是从弄清楚它的能力开始的。

![](https://img.learnblockchain.cn/2025/12/06/17mW629orsoInNNvDNFdVtQ.png)

### 危险：我们正在构建 “上帝模式” 员工

这个 “天才实习生” 创造了一个灾难性的风险概况。

如果你将此代理部署到你的公司中，它将比你学习得更快。但因为它正在**学习**，所以它会犯错误。并且因为它具有**超级智能**，所以这些错误将是危险的。

如果一个天才实习生认为 “修复服务器” 的最有效方法是擦除操作系统并从头开始重写它，它就会这样做。如果它认为 “最大化利润” 的最佳方法是清算国库，它可能会尝试。

价值函数 (The Value Function) 赋予 AI 内部判断力。但我们需要外部监督。我们需要一个 “数字物理” 层，AI 无法通过花言巧语摆脱它，无法破解它，也无法覆盖它。

那一层就是区块链。

### 缺失的环节：为什么 ERC-8004 不够

以太坊社区最近团结在 ERC-8004（无需信任的代理）周围，将其作为链上 AI 的标准。这是一个巨大的进步，但它在安全性方面存在致命缺陷。

ERC-8004 是一个护照系统。

- 它允许代理验证其身份（“我是 Agent Smith”）。
- 它跟踪声誉（“我有一个 5 星评级”）。
- 它记录验证（“我完成了任务”）。

但它缺少一个 Kill Switch。如果一个 “5 星” 代理突然产生幻觉并决定耗尽你的钱包，ERC-8004 只会在**损害发生后**记录一个差评。就像检查驾驶执照但拆除汽车的刹车一样。

### 解决方案：“治理器” 模块（缺失的更新）

为了在 “天才实习生” 的时代生存，我们需要更新我们的标准以包括运行时护栏。我们需要将 ERC-8004 的_身份_与模块化智能账户的_控制_结合起来。

我们需要一个 “治理器标准” —— 一组充当数字紧身衣的链上规则。

1\. 预执行约束（金钱的 “物理”） 在一个集中的服务器中，具有 `admin` 访问权限的 AI 就是上帝。它可以重写日志。在区块链上，我们可以强制执行状态约束。

- 代理提议：**“将 1000 万美元转移到这个新策略中。”**
- 治理器合约检查：**“每日最大转账：100 万美元。”**
- 结果：交易回滚。代理可以尖叫，它可以推理，它可以写一篇 10,000 字的论文，说明为什么这笔交易是辉煌的 —— 但区块链物理只会说不。

2\. “双密钥” 共识规则 我们不能信任单个价值函数 (The Value Function)。我们需要多代理监督。每个敏感操作都应该需要一个 M-of-N 签名方案：

- 密钥 1：天才实习生（提出巧妙的策略）。
- 密钥 2：安全主管（一个_仅_接受合规规则培训的 “更愚蠢” 的 AI 模型）。
- 密钥 3：人工审计员（用于灾难性覆盖）。

如果天才实习生试图执行一项危险的交易，“愚蠢” 的安全主管拒绝签名。交易永远不会到达链上。

### 下一次颠覆：“受约束的代理”

“价值函数 (The Value Function)” 使 AI 足够聪明以完成工作。区块链使它足够安全地被雇用。

我们正在走向一个受约束的代理的世界。我们不会因为 AI 是 “对齐的” 或 “友好的” 而信任它。我们将信任它，因为它受到约束。

我们将部署理论上有能力摧毁世界的代理，但实际上未经其主管的加密同意，它们无法转移 1 个比特币。这种组合 —— 用于引擎的超级智能，用于制动的区块链 —— 是让我们在天才实习生到来时幸存下来的唯一架构。

### 参考文献

1. **Sutskever, I., & Patel, D.** (2025). _“我们正在从规模化时代走向研究时代。”_ Dwarkesh Podcast. \[视频/文字记录]
2. **Lightman, H., et al.** (2023). _“让我们逐步验证。”_ OpenAI. arXiv:2305.20050. (关于过程监督/价值函数 (The Value Function) 的基础论文)。
3. **Yao, S., et al.** (2023). _“思想树：使用大型语言模型进行深思熟虑的问题解决。”_ 普林斯顿大学 & Google DeepMind. arXiv:2305.10601. (演示了对推理步骤的搜索和规划)。
4. **以太坊改进提案 8004.** (2025). _“ERC-8004：无需信任的代理。”_ (定义了链上代理的身份、声誉和验证注册表)。
5. **OpenAI.** (2024). _“OpenAI o1 系统卡。”_ (详细介绍了推理模型的安全评估及其在回答之前 “思考” 的能力)。

>- 原文链接： [blog.blockmagnates.com/t...](https://blog.blockmagnates.com/the-genius-intern-problem-why-blockchain-is-the-only-handcuff-strong-enough-for-a3f59dd6bf77?source=collection_home_page----18fa961f1eff-----5-----------------------------------)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

“天才实习生”问题：为什么区块链是束缚超级智能的唯一强大锁链

作者：Allen C. Zhang

Transformer 架构是一个“普罗米修斯”时刻。它将火传递给了机器。它允许计算机以一种可怕的准确性预测下一个单词，从而模仿了理解。

但正如 Ilya Sutskever 最近指出的那样，我们已经触及了天花板。当前的模型本质上是“系统 1”的思考者 —— 快速、本能和反应性。它们是被美化的即兴演员。当你问 Transformer 一个难题时，它会立即开始说话，希望它选择的第一个单词最终会引导出一个好的句子。它无法停止。它无法计划。它无法提前 10 步思考并意识到，“等等，如果我现在说这个，我会在三个段落后把自己逼入绝境。”

这就是为什么你的 AI 程序员修复了一个 bug 却引入了两个新的 bug。这就是为什么 AI 数学解算器在最后一步出现幻觉。它们是在猜测，而不是推理。

Ilya 在 SSI 的团队现在正在转向一种新的范式：价值函数 (The Value Function)。 这不仅仅是一次升级；它是智能缺失的另一半。

概念：知识 vs. 智慧

要理解价值函数 (The Value Function)，请忘记“下一个 token 预测”。想想国际象棋。

当一位国际象棋大师下棋时，他们不仅仅是凭冲动地移动骑士，因为它“看起来不错”（系统 1）。他们会模拟一棵可能性树：

“如果我移动到这里，他会移动到那里。”
“然后我失去了我的皇后。那是一个糟糕的状态（低价值）。”
“所以我不会那样做。我会尝试一条不同的路径。”

这个分数 —— 尚未发生的未来状态的“坏”或“好”—— 就是价值函数 (The Value Function)。

知识是知道骑士如何移动（Transformer）。智慧是知道_在哪里_移动它才能获胜（价值函数 (The Value Function)）。

代理陷阱：“高级承包商” vs. “天才实习生”

要理解这为何对经济很重要，我们必须看看每个人今天都在炒作的“代理”。

1. 当前的 “专家代理”（高级承包商）这是人们今天所说的 “代理”。

简历：他有 30 年的经验。他已经记住了 Linux、SQL 和 Python 的每一本手册。
现实：他很脆弱。你告诉他 “修复服务器”，他输入了一个完美的命令。由于一个奇怪的新错误，它失败了。他惊慌失措。他再次尝试相同的命令。他不知道_为什么_他会失败；他只知道手册上说_应该_发生什么。
结果：他被困住了。他没有泛化能力。

2. 超级智能（天才实习生）这是 Ilya 描述的模型（“价值函数 (The Value Function)” 学习者）。

简历：她 18 岁。她从未见过你特定的服务器设置。
现实：她具有泛化能力。当她的命令失败时，她的 “价值函数 (The Value Function)” 就会启动。她感受到了一种 “负向奖励” （挫败感）。她想，“好吧，手册上说 X，但现实做了 Y。” 她读取日志，假设一个不在她的训练数据中的_新_解决方案，并仔细测试它。
结果：在第 1 天，她很慢。到第 30 天，她已经比你更了解你的整个系统。她不是从知识开始的；她是从弄清楚它的能力开始的。

危险：我们正在构建 “上帝模式” 员工

这个 “天才实习生” 创造了一个灾难性的风险概况。

如果你将此代理部署到你的公司中，它将比你学习得更快。但因为它正在学习，所以它会犯错误。并且因为它具有超级智能，所以这些错误将是危险的。

那一层就是区块链。

缺失的环节：为什么 ERC-8004 不够

以太坊社区最近团结在 ERC-8004（无需信任的代理）周围，将其作为链上 AI 的标准。这是一个巨大的进步，但它在安全性方面存在致命缺陷。

ERC-8004 是一个护照系统。

它允许代理验证其身份（“我是 Agent Smith”）。
它跟踪声誉（“我有一个 5 星评级”）。
它记录验证（“我完成了任务”）。

但它缺少一个 Kill Switch。如果一个 “5 星” 代理突然产生幻觉并决定耗尽你的钱包，ERC-8004 只会在损害发生后记录一个差评。就像检查驾驶执照但拆除汽车的刹车一样。

解决方案：“治理器” 模块（缺失的更新）

为了在 “天才实习生” 的时代生存，我们需要更新我们的标准以包括运行时护栏。我们需要将 ERC-8004 的_身份_与模块化智能账户的_控制_结合起来。

我们需要一个 “治理器标准” —— 一组充当数字紧身衣的链上规则。

1. 预执行约束（金钱的 “物理”）在一个集中的服务器中，具有 admin 访问权限的 AI 就是上帝。它可以重写日志。在区块链上，我们可以强制执行状态约束。

代理提议：“将 1000 万美元转移到这个新策略中。”
治理器合约检查：“每日最大转账：100 万美元。”
结果：交易回滚。代理可以尖叫，它可以推理，它可以写一篇 10,000 字的论文，说明为什么这笔交易是辉煌的 —— 但区块链物理只会说不。

2. “双密钥” 共识规则我们不能信任单个价值函数 (The Value Function)。我们需要多代理监督。每个敏感操作都应该需要一个 M-of-N 签名方案：

密钥 1：天才实习生（提出巧妙的策略）。
密钥 2：安全主管（一个_仅_接受合规规则培训的 “更愚蠢” 的 AI 模型）。
密钥 3：人工审计员（用于灾难性覆盖）。

如果天才实习生试图执行一项危险的交易，“愚蠢” 的安全主管拒绝签名。交易永远不会到达链上。

下一次颠覆：“受约束的代理”

“价值函数 (The Value Function)” 使 AI 足够聪明以完成工作。区块链使它足够安全地被雇用。

我们正在走向一个受约束的代理的世界。我们不会因为 AI 是 “对齐的” 或 “友好的” 而信任它。我们将信任它，因为它受到约束。

参考文献

Sutskever, I., & Patel, D. (2025). “我们正在从规模化时代走向研究时代。” Dwarkesh Podcast. [视频/文字记录]
Lightman, H., et al. (2023). “让我们逐步验证。” OpenAI. arXiv:2305.20050. (关于过程监督/价值函数 (The Value Function) 的基础论文)。
Yao, S., et al. (2023). “思想树：使用大型语言模型进行深思熟虑的问题解决。” 普林斯顿大学 & Google DeepMind. arXiv:2305.10601. (演示了对推理步骤的搜索和规划)。
以太坊改进提案 8004. (2025). “ERC-8004：无需信任的代理。” (定义了链上代理的身份、声誉和验证注册表)。
OpenAI. (2024). “OpenAI o1 系统卡。” (详细介绍了推理模型的安全评估及其在回答之前 “思考” 的能力)。

原文链接： blog.blockmagnates.com/t...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。