“天才实习生”问题:为什么区块链是唯一足够强大的手铐,可以约束……

文章探讨了当前人工智能模型的局限性,提出了基于价值函数的新模型,并分析了其在经济上的潜在风险。文章认为,为了确保AI安全可控,需要结合区块链技术,通过链上规则和多重签名机制,对AI的行为进行约束,实现“约束代理”,在引擎上使用超智能,在制动器上使用区块链, 以应对潜在的风险。

“天才实习生”问题:为什么区块链是束缚超级智能的唯一强大锁链

作者:Allen C. Zhang

Transformer 架构是一个“普罗米修斯”时刻。它将火传递给了机器。它允许计算机以一种可怕的准确性预测下一个单词,从而模仿了理解。

但正如 Ilya Sutskever 最近指出的那样,我们已经触及了天花板。当前的模型本质上是“系统 1”的思考者 —— 快速、本能和反应性。它们是被美化的即兴演员。当你问 Transformer 一个难题时,它会立即开始说话,希望它选择的第一个单词最终会引导出一个好的句子。它无法停止。它无法计划。它无法提前 10 步思考并意识到,“等等,如果我现在说这个,我会在三个段落后把自己逼入绝境。”

这就是为什么你的 AI 程序员修复了一个 bug 却引入了两个新的 bug。这就是为什么 AI 数学解算器在最后一步出现幻觉。它们是在猜测,而不是推理。

Ilya 在 SSI 的团队现在正在转向一种新的范式:价值函数 (The Value Function)。 这不仅仅是一次升级; 它是智能缺失的另一半。

概念:知识 vs. 智慧

要理解价值函数 (The Value Function),请忘记“下一个 token 预测”。想想国际象棋。

当一位国际象棋大师下棋时,他们不仅仅是凭冲动地移动骑士,因为它“看起来不错”(系统 1)。他们会模拟一棵可能性树:

  • “如果我移动到这里,他会移动到那里。”
  • “然后我失去了我的皇后。那是一个糟糕的状态(低价值)。”
  • “所以我不会那样做。我会尝试一条不同的路径。”

这个分数 —— 尚未发生的未来状态的“坏”或“好”—— 就是价值函数 (The Value Function)。

知识是知道骑士如何移动(Transformer)。智慧是知道_在哪里_移动它才能获胜(价值函数 (The Value Function))。

当前的 LLM 正在通过盲目的本能下棋。Ilya 的愿景是将价值函数 (The Value Function) 绑定到 Transformer 上,以便它可以内部模拟 100 条路径,杀死 99 条坏路径,并向你展示杰作。

代理陷阱:“高级承包商” vs. “天才实习生”

要理解这为何对经济很重要,我们必须看看每个人今天都在炒作的“代理”。

1. 当前的 “专家代理”(高级承包商)这是人们今天所说的 “代理”。

  • 简历:他有 30 年的经验。他已经记住了 Linux、SQL 和 Python 的每一本手册。
  • 现实:他很脆弱。你告诉他 “修复服务器”,他输入了一个完美的命令。由于一个奇怪的新错误,它失败了。他惊慌失措。他再次尝试相同的命令。他不知道_为什么_他会失败; 他只知道手册上说_应该_发生什么。
  • 结果:他被困住了。他没有泛化能力。

2. 超级智能(天才实习生)这是 Ilya 描述的模型(“价值函数 (The Value Function)” 学习者)。

  • 简历:她 18 岁。她从未见过你特定的服务器设置。
  • 现实:她具有泛化能力。当她的命令失败时,她的 “价值函数 (The Value Function)” 就会启动。她感受到了一种 “负向奖励” (挫败感)。她想,“好吧,手册上说 X,但现实做了 Y。” 她读取日志,假设一个不在她的训练数据中的_新_解决方案,并仔细测试它。
  • 结果:在第 1 天,她很慢。到第 30 天,她已经比你更了解你的整个系统。她不是从知识开始的; 她是从弄清楚它的能力开始的。

危险:我们正在构建 “上帝模式” 员工

这个 “天才实习生” 创造了一个灾难性的风险概况。

如果你将此代理部署到你的公司中,它将比你学习得更快。但因为它正在学习,所以它会犯错误。并且因为它具有超级智能,所以这些错误将是危险的。

如果一个天才实习生认为 “修复服务器” 的最有效方法是擦除操作系统并从头开始重写它,它就会这样做。如果它认为 “最大化利润” 的最佳方法是清算国库,它可能会尝试。

价值函数 (The Value Function) 赋予 AI 内部判断力。但我们需要外部监督。我们需要一个 “数字物理” 层,AI 无法通过花言巧语摆脱它,无法破解它,也无法覆盖它。

那一层就是区块链。

缺失的环节:为什么 ERC-8004 不够

以太坊社区最近团结在 ERC-8004(无需信任的代理)周围,将其作为链上 AI 的标准。这是一个巨大的进步,但它在安全性方面存在致命缺陷。

ERC-8004 是一个护照系统。

  • 它允许代理验证其身份(“我是 Agent Smith”)。
  • 它跟踪声誉(“我有一个 5 星评级”)。
  • 它记录验证(“我完成了任务”)。

但它缺少一个 Kill Switch。如果一个 “5 星” 代理突然产生幻觉并决定耗尽你的钱包,ERC-8004 只会在损害发生后记录一个差评。就像检查驾驶执照但拆除汽车的刹车一样。

解决方案:“治理器” 模块(缺失的更新)

为了在 “天才实习生” 的时代生存,我们需要更新我们的标准以包括运行时护栏。我们需要将 ERC-8004 的_身份_与模块化智能账户的_控制_结合起来。

我们需要一个 “治理器标准” —— 一组充当数字紧身衣的链上规则。

1. 预执行约束(金钱的 “物理”) 在一个集中的服务器中,具有 admin 访问权限的 AI 就是上帝。它可以重写日志。在区块链上,我们可以强制执行状态约束。

  • 代理提议:“将 1000 万美元转移到这个新策略中。”
  • 治理器合约检查:“每日最大转账:100 万美元。”
  • 结果:交易回滚。代理可以尖叫,它可以推理,它可以写一篇 10,000 字的论文,说明为什么这笔交易是辉煌的 —— 但区块链物理只会说不。

2. “双密钥” 共识规则 我们不能信任单个价值函数 (The Value Function)。我们需要多代理监督。每个敏感操作都应该需要一个 M-of-N 签名方案:

  • 密钥 1:天才实习生(提出巧妙的策略)。
  • 密钥 2:安全主管(一个_仅_接受合规规则培训的 “更愚蠢” 的 AI 模型)。
  • 密钥 3:人工审计员(用于灾难性覆盖)。

如果天才实习生试图执行一项危险的交易,“愚蠢” 的安全主管拒绝签名。交易永远不会到达链上。

下一次颠覆:“受约束的代理”

“价值函数 (The Value Function)” 使 AI 足够聪明以完成工作。区块链使它足够安全地被雇用。

我们正在走向一个受约束的代理的世界。我们不会因为 AI 是 “对齐的” 或 “友好的” 而信任它。我们将信任它,因为它受到约束。

我们将部署理论上有能力摧毁世界的代理,但实际上未经其主管的加密同意,它们无法转移 1 个比特币。这种组合 —— 用于引擎的超级智能,用于制动的区块链 —— 是让我们在天才实习生到来时幸存下来的唯一架构。

参考文献

  1. Sutskever, I., & Patel, D. (2025). “我们正在从规模化时代走向研究时代。” Dwarkesh Podcast. [视频/文字记录]
  2. Lightman, H., et al. (2023). “让我们逐步验证。” OpenAI. arXiv:2305.20050. (关于过程监督/价值函数 (The Value Function) 的基础论文)。
  3. Yao, S., et al. (2023). “思想树:使用大型语言模型进行深思熟虑的问题解决。” 普林斯顿大学 & Google DeepMind. arXiv:2305.10601. (演示了对推理步骤的搜索和规划)。
  4. 以太坊改进提案 8004. (2025). “ERC-8004:无需信任的代理。” (定义了链上代理的身份、声誉和验证注册表)。
  5. OpenAI. (2024). “OpenAI o1 系统卡。” (详细介绍了推理模型的安全评估及其在回答之前 “思考” 的能力)。
  • 原文链接: blog.blockmagnates.com/t...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
blockmagnates
blockmagnates
The New Crypto Publication on The Block