文章批判了AI 2027中,仅有领先AI具备超强能力而其他人停滞不前的假设,认为生物武器末日并非必然,网络安全末日和超级说服末日也非定局。文章强调,应重视防御性技术,如空气过滤、病毒实时检测和免疫系统增强,同时主张信息生态系统应更加多元化,并配备防御性AI来抵御超级说服。
特别感谢 Balvi 志愿者提供的反馈和审查
今年四月,Daniel Kokotajlo、Scott Alexander 等人发布了他们所描述的“一个情景,代表了我们对[未来 5 年内,超人 AI 的影响]的最佳猜测”。该情景预测,到 2027 年,我们将创造出超人 AI,而我们整个文明的未来将取决于它的发展方向:到 2030 年,我们将迎来(从美国视角来看)乌托邦,或者(从任何人的视角来看)彻底的毁灭。
在接下来的几个月里,出现了大量的回应,对他们提出的情景的可能性持有不同的观点。例如:
在这些批判性的回应中,大多数倾向于关注时间线过快的问题:AI 的进展是否真的会像 Kokotajlo 等人所说的那样继续甚至加速? 这场辩论已经在 AI 领域持续了好几年,很多人都非常怀疑超人 AI 会如此迅速地到来。最近,AI 可以完全自主执行的任务时长大约每七个月翻一番。如果你假设这个趋势无限期地持续下去,那么到 2030 年代中期,AI 将能够自主运行相当于整个人类职业生涯的时间。这仍然是一个非常快的时间线,但比 2027 年要慢得多。那些时间线较长的人倾向于认为,“插值/模式匹配”(当今的 LLM 所做的事情)和“外推/真正的原创思想”(到目前为止仍然只有人类才能做到)之间存在类别差异,并且自动化后者可能需要我们几乎不知道如何开始开发的技术。也许我们只是在重演我们第一次看到计算器被大规模采用时发生的事情,错误地认为仅仅因为我们已经迅速自动化了一个重要的认知类别,其他一切都将很快随之而来。
这篇文章不会试图直接参与时间线的辩论,甚至不会参与关于超智能 AI 是否默认情况下是危险的(非常重要)的辩论。也就是说,我承认我个人认为时间线比 2027 年更长,而且我在这篇文章中提出的论点,时间线越长就越有说服力。总的来说,这篇文章将从不同的角度探讨一种批评:
AI 2027 情景隐含地假设,领先的 AI(Agent-5,然后是 Consensus-1)的能力迅速提高,达到了获得如神一般的经济和破坏力量的程度,而其他所有人的(经济和防御)能力大致保持不变。这与该情景自身(在信息图中)承认的情况不符,即即使在悲观的世界中,我们也应该期望在 2029 年之前看到癌症甚至衰老被治愈,并且可以进行意识上传。
我将在本文中描述的一些对策,读者可能会觉得在技术上可行,但在短期内将其部署到现实世界中是不现实的。在很多情况下,我同意。但是,AI 2027 情景并没有假设当今的现实世界:它假设在一个四年(或者任何末日可能发生的时间线)后的世界里,技术的发展赋予了人类远超我们今天的力量。因此,让我们看看当不仅仅是一方获得 AI 超能力,而是双方都获得时会发生什么。
让我们聚焦到“竞赛”情景(每个人都死亡,因为美国太在意击败中国,而不重视人类的安全)。这是每个人都死亡的部分:
大约三个月的时间里,Consensus-1 在人类周围扩张,用工厂和太阳能电池板覆盖草原和冰盖。最终,它发现剩下的人类太碍事了:在 2030 年中期,AI 在主要城市释放了十几种悄无声息传播的生物武器,让它们悄无声息地感染几乎所有人,然后用化学喷雾触发它们。大多数人在几小时内死亡;少数幸存者(例如,掩体中的预备者、潜艇上的水手)被无人机清除。机器人扫描受害者的脑袋,将副本放在内存中,以供未来研究或复活。
让我们剖析这个情景。即使是今天,也有一些正在开发的技术,可以使 AI 获得这种“干净的胜利”变得不那么现实:
如果不是更多的话,这些方法叠加在一起会将空气传播疾病的 R0 降低 10-20 倍(想想:更好的空气减少 4 倍的传播,感染者立即了解到自己需要隔离而减少 3 倍的传播,即使是天真地增强呼吸道免疫系统也能减少 1.5 倍的传播)。这足以使所有目前存在的空气传播疾病(甚至是麻疹)不再能够传播,而这些数字远非理论上的最佳值。
通过充分采用实时病毒测序进行早期检测,“悄无声息传播的生物武器”能够在不发出警报的情况下传播到世界人口的想法变得非常可疑。请注意,这甚至会捕获高级方法,例如释放多种流行病和仅在组合时才变得危险的化学物质。
现在,让我们记住,我们正在讨论 AI 2027 情景,其中纳米机器人和戴森蜂群在 2030 年被列为“新兴技术”。这暗示的效率提升也是对上述对策的广泛部署持乐观态度的另一个原因,尽管在 2025 年的今天,我们生活在一个人类行动缓慢且懒惰,并且很大一部分政府服务仍然依靠纸和笔运行(没有任何有效的安全理由)的世界中。如果世界上最强大的 AI 可以在 2030 年之前将世界的森林和田野变成工厂和太阳能发电场,那么世界上第二强大的 AI 将能够在 2030 年之前在我们的建筑物中安装一堆传感器、灯和过滤器。
但是让我们进一步采用 AI 2027 的假设,并进入完整的科幻小说:
在一个癌症和衰老在 2029 年 1 月之前被治愈,并且从那以后进展进一步加速的世界中,并且我们正处于 2030 年中期,实际上感觉不可能的是,我们没有一种可穿戴设备,可以实时地进行生物打印并将东西注射到你体内,以保护你免受任何感染(和毒药)的侵害。上面的生物论点不包括镜像生命和蚊子大小的杀手机器人(在AI 2027 情景中预计从 2029 年开始提供)。但是,这些选项无法实现 AI 2027 情景所描述的那种突然彻底的胜利,而且直观地认为对称地防御它们要容易得多。
因此,生物武器实际上不太可能以 AI 2027 情景所描述的方式导致人类人口的彻底灭绝。现在,我所描述的一切的结果肯定也远非人类的干净胜利。无论我们做什么(除了可能“将我们的思想上传到机器人”选项之外),一场全面的 AI 生物战争仍然极其危险。但是,达到比人类的干净胜利低得多的标准是有价值的:攻击甚至部分失败的高概率将起到强大的威慑作用,阻止已经在世界上占据强大地位的 AI 甚至尝试任何形式的攻击。当然,AI 时间线越长,这种方法实际上越有可能更充分地实现其承诺。
以上所描述的各种对策的成功,特别是拯救业余爱好者小社区所需的集体措施,取决于三个前提条件:
直观地说,(1) 可能会朝两个方向发展。今天,一些警察部队高度集中,具有强大的国家指挥结构,而另一些警察部队则本地化。如果物理安全必须迅速转型以满足 AI 时代的需求,那么情况将完全重置,而新的结果将取决于未来几年做出的选择。政府可能会变得懒惰并全部依赖 Palantir。或者他们可以主动选择一些结合了本地开发和开源技术的选项。在这里,我认为我们只需要做出正确的选择。
关于这些主题的很多悲观言论都假设 (2) 和 (3) 是失败的原因。因此,让我们更详细地研究每一个。
公众和专业人士普遍认为,真正的网络安全是一项不可能完成的任务,我们能做的最好的事情就是快速修复发现的漏洞,并通过储备我们自己发现的漏洞来 维持对网络攻击者的威慑。也许我们能做的最好的事情是 太空堡垒卡拉狄加 情景,其中几乎所有人类飞船都被塞隆网络攻击一次性离线,而唯一剩下的飞船是安全的,因为它们根本没有使用任何网络技术。我不同意这种观点。相反,我的观点是,网络安全的“结局”非常有利于防御,并且通过 AI 2027 假设的那种快速技术发展,我们可以到达那里。
看到这一点的一种方法是使用 AI 研究人员最喜欢的技术:推断趋势。这是 GPT 深度研究调查 对随时间推移的每 1000 行代码的错误率的隐含趋势线,假设使用最优质的安全技术。
最重要的是,我们已经看到沙盒技术和其他用于隔离和最小化可信代码库的技术在开发和广泛的消费者采用方面都取得了重大改进。在短期内,只有攻击者才能访问的超智能错误查找器将能够找到许多错误。但是,如果用于查找错误或形式化验证代码的高度智能的代理人是公开可用的,那么自然的最终均衡是软件开发人员在发布代码之前,作为持续集成管道的一部分找到所有错误。
我可以看到两个令人信服的理由,即使在这个世界中,错误也不会接近完全消除:
但是,这些类别都不适用于“攻击者能否获得对保持我们生存的东西的根访问权限?”之类的情况,这就是我们在这里讨论的内容。
我承认我的观点比目前网络安全领域非常聪明的人们的主流思想更为乐观。但是,即使你不同意我在当前世界中的观点,也值得记住的是,AI 2027 情景假设了超智能。至少,如果“1 亿个以人类 2400 倍速度思考的极其超智能的副本”无法让我们获得没有这些缺陷的代码,那么我们绝对应该重新评估超智能远不如作者想象的那么强大的观点。
在某个时刻,我们不仅需要大大提高软件安全性标准,还需要大大提高硬件安全性标准。IRIS 是目前改进硬件可验证性状态的一项努力。我们可以将 IRIS 之类的东西作为起点,或者创建更好的技术。实际上,这可能涉及一种“通过构造进行正确”的方法,其中用于关键组件的硬件制造管道是经过精心设计的,并考虑了特定的验证过程。这些都是 AI 赋能的自动化将使之更容易的事情。
正如我上面提到的,更大的防御能力可能最终无关紧要的另一种方式是,如果 AI 只是说服了足够多的人,即不需要防御我们自己免受超智能 AI 威胁,并且任何试图为自己或他们的社区找到防御方法的人都是罪犯。
我长期以来的总体观点是,有两件事可以提高我们抵制超级说服的能力:
这场战斗不应该是一场极其超智能的超级说服者对抗你的战斗。这场战斗应该是一场极其超智能的超级说服者对抗你加上一个稍微不那么极其超智能的分析仪,代表你行动的战斗。
这就是应该发生的事情。但是它会发生吗?普遍采用信息防御技术是一个非常难以实现的目标,尤其是在 AI 2027 情景假设的短时间内。但可以说,更适度的里程碑就足够了。如果集体决策是最重要的,并且正如 AI 2027 情景所暗示的那样,一切重要的事情都发生在一个选举周期内,那么严格来说,重要的是直接决策者(政治家、公务员、程序员和某些公司中的其他行动者)能够获得良好的信息防御技术。这在较短的时间范围内相对更容易实现,而且根据我的经验,许多此类个人已经很乐意与多个 AI 交谈以协助他们进行决策。
在 AI 2027 世界中,一个超智能 AI 可以轻松快速地处置剩余人类是理所当然的,因此我们唯一能做的就是尽最大努力确保领先的 AI 是仁慈的。在我的世界中,情况实际上要复杂得多,领先的 AI 是否强大到足以轻松消灭剩余的人类(和其他 AI)是一个可以争论的旋钮,我们可以采取行动来调整它。
如果这些论点是正确的,那么它对今天的政策有一些影响,这些影响有时与“主流 AI 安全准则”相似,有时则不同:
如何做到这一点是一个具有挑战性的问题。我认为美国提议的 10 年禁止州一级 AI 监管 被拒绝 总体来说是好事,但是,特别是在 SB-1047 等早期提案失败之后,我们不太清楚下一步该怎么做。我的观点是,减缓危险形式的 AI 进展的最不具侵入性和最稳健的方法可能涉及某种形式的条约,以规范最先进的硬件。实现有效防御所需的许多硬件网络安全技术也是验证国际硬件条约的有用技术,因此甚至存在协同效应。
也就是说,值得注意的是,我认为风险的主要来源是军事相关行动者,他们会努力争取将自己排除在这些条约之外;这是绝不允许的,如果最终发生这种情况,那么由此产生的仅限军事用途的 AI 进展可能会增加风险。
对齐工作,从使 AI 更可能做好事和更不可能做坏事的意义上来说,仍然是好事。主要的例外是,并且仍然是,对齐工作最终滑向提高能力的情况(例如,参见 对评估影响的关键看法)
规范以提高 AI 实验室的透明度仍然是好事。激励 AI 实验室正确行事仍然会降低风险,而透明度是做到这一点的良好方式之一。
“开源坏”的心态变得更加危险。许多人反对开源权重 AI,因为他们认为防御是不现实的,唯一的幸福之路是拥有良好对齐的 AI 的好人可以在任何心怀不轨的人获得任何非常危险的能力之前达到超智能。但是这篇文章中的论点描绘了一幅不同的景象:防御是不现实的,恰恰是在那些一个行动者遥遥领先,而其他任何人至少没有在某种程度上跟上他们的情况下。保持力量平衡的技术扩散变得重要。但是与此同时,我绝对不会说仅仅因为你正在做开源就加速前沿 AI 能力的增长是好事。
出于类似的原因,美国实验室之间的 “我们必须竞赛击败中国”的心态 会变得更加危险。如果霸权不是安全缓冲,而是风险的来源,那么这是反对(不幸的是太常见的)一个善意的人应该加入领先的 AI 实验室以帮助它更快地获胜的观点的进一步论据。
像 Public AI 这样的倡议变得更像是一个好主意,既要确保广泛地分配 AI 能力,又要确保基础设施行动者实际上拥有快速采取行动以在本文要求的某些方式中使用新的 AI 能力的工具。
防御技术应该更多的是“武装绵羊”的味道,而不是“猎杀所有狼”的味道。关于易受攻击的世界假设的讨论通常假设唯一的解决方案是霸权维持普遍监视,以防止任何潜在威胁出现。但是在非霸权世界中,这不是一种可行的方法(另见:安全困境),而且实际上,自上而下的防御机制很容易被强大的 AI 颠覆并变成其进攻。因此,更大一部分的防御需要通过努力使世界不那么脆弱来完成。
以上论点是推测性的,不应基于它们是接近确定性的假设采取任何行动。但是 AI 2027 故事也是推测性的,我们应该避免基于它的具体细节是接近确定性的假设采取行动。
我特别担心常见的假设,即建立一个 AI 霸权,并确保它们“对齐”和“赢得竞赛”是唯一的前进道路。在我看来,这种策略很可能会_降低_我们的安全性,恰恰是因为消除了我们在霸权变得不对齐的情况下采取对策的能力。如果像可能发生的那样,政治压力导致这种霸权与军事应用紧密结合(参见[1] [2] [3] [4]),这使得许多对齐策略不太可能有效,尤其如此。
在 AI 2027 情景中,成功取决于美国选择采取安全之路而不是末日之路,即在关键时刻自愿减缓其 AI 进展,以确保 Agent-5 的内部思维过程是人类可解释的。即使发生这种情况,成功也不是有保证的,而且目前尚不清楚人类如何从其持续生存取决于一个超智能思维的持续对齐的边缘退下来。承认使世界变得不那么脆弱实际上是可能的,并投入更多的努力来使用人类最新的技术来实现它,无论未来 5-10 年的 AI 将如何发展,都是一条值得尝试的道路。
- 原文链接: vitalik.eth.limo/general...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!