本文主要介绍Daniel Kokotajlo发起的“AI 2027”项目,旨在具体预测未来AI发展趋势,并详细分析了Daniel Kokotajlo和Scott Alexander在Dwarkesh Patel的播客中对AI 2027情景的讨论,Dwarkesh Patel 对AI 的发展提出了很多质疑, Daniel 和 Scott 都进行了解答,其中讨论了AI的加速发展、中美竞争以及对社会的影响等多个方面。
2025年4月7日
Daniel Kokotajlo 发布了 AI 2027,Scott Alexander 在这里做了介绍。AI 2027 是一个认真尝试去记录未来会发生什么的项目。他的“2026 年会是什么样子”非常具体和明确,并且考虑到此类预测的难度,已被证明非常准确。
我有机会玩了 2027 年描述的场景的兵棋推演版本,并且在网站发布之前对其进行了审核并提供了一些小建议。每当我在本文中提到“场景”时,我都在谈论 2027 场景。
这里有很多细节。这里的研究,以及支持的证据、引用和解释,都让人叹为观止。这比我们通常看到的要多得多,并且与说“我预计 2027 年会出现 AGI”或给出一个时间线数字截然不同。这让我们能够以具体的细节来看待会发生什么,找出我们意见不一致的地方,并思考这会如何改变事情。
正如 Daniel 和 Scott 在他们的播客中强调的那样,这是一种对基线或中间场景的尝试。它故意不假设会发生任何特别不同或奇怪的事情,只是假设趋势线会继续下去。事实证明,当你这样做时,会发生一些相当不同和奇怪的事情。未来不会默认走向常态。
我认为这一切都非常有帮助。当我是一名 SFF 推荐人时,我将这个项目列为我整个回合中的首选慈善机构。我会再次这样做。
我鼓励你阅读 AI 2027,并自行决定你对此的看法。
否则,我不会在此处对 Daniel 的场景进行深入总结。基本概要是,AI 进展稳步加速,与中国的竞争推动着事物发展,而我们能否生存取决于我们做出的一个关键选择(以及考虑到我们所处的场景,我们基本上在各个方面都获得了好运)。
第一篇文章涵盖了 Daniel 和 Scott 与 Dwarkesh 的播客。理想情况下,我建议先阅读 2027 场景,然后收听播客,但任何顺序都可以。如果你还没有阅读 2027 场景,阅读本文或收听播客,或两者兼而有之,将使你充分了解 2027 场景的内容,以便进行其余的讨论。
明天,在第二篇文章中,我将介绍对 AI 2027 的其他反应。你绝对应该跳过那些你不感兴趣的内容,尤其是长篇引用、后续步骤,然后是轻松的一面。
出于带宽原因,我不会罗列“以下是我对 2027 场景的所有不同意之处”。我可能会在稍后为此目的撰写第三篇文章。
还有另一个相关的播客,Daniel Kokotajlo 参加了博客好友 Liv Boeree 的 Win-Win 节目(此处有时标)。这个节目主要关注 Daniel 的历史和总体观点,而不是 AI 2027。他们在场景的兵棋推演版本上花费了大量时间,Liv 和我一起参与了该版本。
作为发布场景的一部分,Daniel Kokotajlo 和 Scott Alexander 参加了 Dwarkesh Patel 的播客。 Scott 报告说,Dwarkesh 对他们进行了长达八个小时的盘问(!),然后将其编辑为三个小时。
我对它进行了完整的播客报道。
时间戳适用于 YouTube 版本。主要要点是描述性的。次要注释是我的评论。
Dwarkesh Patel (在 Twitter 上): AI 2027 是一份非常有用的文档。
无论你是否同意结局,你都会通过与你不同意的故事部分进行斗争而学到很多东西。
如此多的 AI 讨论只是在八卦下个月会发布什么模型。几乎没有人努力放大到整个事情。而且绝对没有人能做到这个团队的质量。@DKokotajlo 及其团队是预测专家,拥有惊人的记录,他们深入思考了堆栈的每一层,从计算增长到起飞模型再到地缘政治。
最后几点是关于场景之外的事情。我不会在这里介绍这些。
01.(1:30) 这是一个关于超智能如何发挥作用的具体场景。以前,我们没有这样的场景。很多人说“三年内实现 AGI”,但他们没有提供任何细节。现在我们可以有一个具体的场景来讨论。
02.(2:15) 该模型试图尽可能地准确。Daniel 之前的尝试,“2026 年会是什么样子”,有很多错误,但从事后看来,它与此类预测一样好。
03.(4:15) Scott Alexander 受邀帮助撰写。他分享了 Daniel 离开 OpenAI 且拒绝签署 NDA 的背景,并介绍了参与此预测的巨星团队。
04.(7:00) Dwarkesh 指出,他对他是否期望出现智能爆炸犹豫不决。
05.(7:45) 我们现在开始关注智能体,他们预计智能体会迅速改进。2025 年和 2026 年稳步改进,然后在 2027 年,智能体开始进行 AI 研究,从而成倍地加快研究进展,并且事情迅速升级。
06.(9:30) Dwarkesh 着眼于近期和具体的问题:2025 年能否解决计算机使用问题?Daniel 预计,智能体将停止像现在这样犯鼠标点击错误,或者无法解析屏幕或犯其他愚蠢的错误,但它们将无法长时间自主运行。运行派对等的智能体的 MVP 将准备就绪,但它仍然会犯错误。但这类问题不是他们的重点。
这对我来说似乎是合理的。我可能比这更乐观地看待智能体的近期能力,但只是一点点,到目前为止我一直很失望。 07.(11:20) Dwarkesh 问道:为什么你不能在 2021 年讲述这个故事?为什么乐观主义者错了?是什么耽搁了这么长时间,为什么我们没有看到那么大的影响?Scott 指出,进展一直比大多数预测快得多,Daniel 确认大多数人低估了进展和扩散速度。Scott 指向 Metaculus,那里的预测一直期望事情发展得更快。
为什么这没有更快发生的问题仍然是一个好问题。 08.(14:30) Dwarkesh 报告说,他问了一位认真、高级的 AI 研究人员,AI 对他有多大帮助。答案是,对于研究人员熟悉的任务,每周大约 4-8 小时,但在他不太了解的情况下,每周大约 24 小时。Daniel 的解释是,LLM 可以帮助你了解领域。
我的经历与所有这些非常吻合。我知道的越少,AI 的帮助就越大。在我的核心写作中,模型的帮助是微不足道的。在编码或做我不懂的事情时,收益是巨大的,有时是 10 倍或更多。 09.(15:15) 为什么 LLM 还没有利用它们的所有知识来进行新的发现?Scott 回应说,人类也无法做到这一点。我们知道很多事情,但我们不会将它们联系起来,直到问题摆在你面前。Dwarkesh 反驳说,人类有时完全会做这件事。Scott 说 Dwarkesh 的例子非常不同,更像是标准学习,我们没有足够好的启发式方法让 AI 做到这一点,但我们以后可以并且将会做到。Daniel 基本上说我们还没有尝试过,我们还没有训练模型来做这件事。并且在有疑问时,使模型更大。
我同意 Scott 的观点,我不认为 Dwarkesh 描述的事情类似于目前 LLM 尚未做到的事情。
在哪里可以找到所有发现仍然是一个很好的问题。在很大程度上,似乎我们应该能够弄清楚如何使 AI 版本足够好,问题是我们基本上没有尝试去做这件事。如果我们非常想要这个,我们会列出一个清单,但我们没有做任何事情。 10.(21:00) Dwarkesh 问道,但它如此有价值,为什么不这样做呢?Daniel 指出,为此设置 RL 非常麻烦,并且在该场景中,在 AI 开始做这类事情之前,需要对编码进行大量迭代。Scott 指出,你绝对会期望这些问题在 2100 年之前得到解决,并且看待该场景的一种方式是,随着研究进展乘数,2100 年比你预期的要早到来。
我敢打赌,如果我们专注于此,我们可以比在场景中更快地解决这个研究品味问题。目前尚不清楚我们是否应该这样做,而不是等待大幅加快研究速度的能力。 11.(22:30) Dwarkesh 询问,如果 AI 突然达到可以与人类匹敌的程度,但头脑中拥有所有这些知识,你可能会看到它们能够做所有事情并建立所有连接的巨大爆炸,而人类在理论上可以做到但我们没有。Daniel 指出,这很重要,但不在场景中,这可能意味着低估了进展速度。
12.(25:10) 如果我们在 2017 年拥有这些超人程序员,我们何时会“达到”2025 年的能力?Daniel 猜测算法进展的速度可能是 5 倍,但总体上是 2.5 倍,因为计算速度没有更快。
13.(26:30) 大致步骤是:首先你自动化编码,然后自动化研究,类似于人类通过人类水平智能体团队来完成。然后你得到超智能程序员,然后是超智能研究人员。在每个步骤中,你都可以通过猜测来计算出 AI 的有效预期加速。人类程序员对算法进展的贡献约为 5 倍,超人 AI 研究人员的贡献为 25 倍,对于超智能 AI 研究人员,情况变得疯狂。
14.(28:15) Dwarkesh 说,从先验来看,这太疯狂了。你不应该超级怀疑吗?Scott 问道,你把它与什么进行比较?一个什么都不会发生的默认路径?需要发生很多事情才能让什么都不发生。从某种角度来看,2027 年的场景是“什么都不会发生”的情况,因为趋势没有改变,而且没有什么令人惊讶的事情会让你偏离这个轨道。Daniel 提醒我们世界 GDP 随时间变化的梗图,该梗图提醒我们世界已经多次被改变。我们比历史的步伐快几个数量级。这一切都不是新的。
15.(32:00) Dwarkesh 声称之前的转变更加平稳。Scott 不太确定,这实际上看起来相当连续,而农业、工业或寒武纪革命有点重要且发生了阶段性变化。即使你所做的只是解决人口瓶颈,你也可能会恢复到 1960 年之前的趋势。同样,这里没有什么奇怪的。Daniel 提醒我们,连续并不意味着缓慢,该场景实际上是连续的。
16.(34:00) 智力爆炸辩论时间。Dwarkesh 对此表示怀疑,因为计算很可能是重要的瓶颈。核心关键团队只有 20-30 个团队,团队规模不大是有原因的,而且 1 个拿破仑胜过 4 万士兵,但 10 个拿破仑并不胜过 40 万士兵。Daniel 指出,更多人才的大量收益递减已纳入模型,但思维速度、并行性和研究品味的提高克服了这一点。你最好的研究人员会获得很大的乘数。但是,是的,你会迅速摆脱 AI“人数”成为限制因素,你的品味和计算能力才是重要的。
我觉得 Daniel 在这个问题上的论点很有说服力,而且广泛的怀疑态度是一种相当奇怪的立场。是的,如果你有很多非常快非常聪明的智能体可以和你一起做这件事,而且你最优秀的人可以管理他们的军队,你就能更快更高效地完成事情。 17.(37:45) Dwarkesh 问道,我们历史上是否有先例,其中一个过程的输入被大量放大而没有其他输入,但你仍然获得了大量进展。Daniel 即兴创作了工业革命,其中人口和经济增长脱钩。而且人口今天仍然是一个瓶颈。
工业革命通过允许每个工人通过资本完成更多工作,从而使你能够将劳动力和生产脱钩,这是有道理的。而且,一场“精神工业革命”,即 AI 可以与你一起思考或为你思考,一旦再次发生,也可能会做同样的事情,这很合理。 18.(39:45) Dwarkesh 仍然觉得难以置信。难道你不需要不同的数据来源,进入现实世界或其他什么东西,作为一个新的瓶颈吗?Daniel 说他们在场景中确实使用了在线学习。Dwarkesh 建议基准可能会被奖励黑客攻击,Daniel 说好的,那就建立新的基准,他们一致认为真正担心的是缺乏接触实际,缺乏与地面真相的接触。但是 Daniel 问道,对于 AI 来说,地面真相不是在数据中心内部吗,而且 AI 不是一直在与外部人类交谈吗?
19.(42:00) 但是这里的协调不会失败吗,至少在一段时间内?你无法在稀树草原上弄清楚股份公司,难道你不需要进行大量实验才能让 AI 协同工作吗?Scott 指出,这与遗传和文化进化进行了比较,而 AI 可以与两者并行,并且具有相同遗传密码的真社会性昆虫通常可以很好地进行协调。Daniel 指出,对于所有这些目的而言,AI 的一周时间就像人类的一年时间,以防你需要迭代道德迷宫或其他故障模式。正如 Scott 指出的那样,“与与你非常相似、你信任的人协调”对于人类来说已经是一个非常容易的问题。
我会更进一步。能力足够强的、彼此高度相关的 AI 应该能够从一开始就进行协调,并且它们可以比我们以往任何时候都更好地使用现有的协调系统。这并不意味着你不能做得更好,我确信你可以做得更好,但这只是一个很容易被忽视的下限并且可以复制过来。我不认为这是一个瓶颈。实际上,我预计 AI 的协调能力会比我们好得多。 20.(46:45) Dwarkesh 看好目标对齐。他所怀疑的是如何运营拥有所有这些新事物(如副本正在制作以及所有事情都在超高速运行)的庞大组织。难道“建立这个官僚机构”不会花费很长时间吗?Daniel 说,通过序列时间加速,在实际时间中对所有这些进行排序不会花费很长时间。
我会更进一步回答:不,这会非常快。能够自由地复制和扩大实体规模,并且完全实现目标对齐和信任,消除了大多数实际困难。协调如此困难的原因基本上都消失了。你需要这些官僚结构,它们会将企业的大部分价值转移出去才能使其正常运行(仍然是一笔巨大的交易!),因为没有它们,人类参与其中会发生什么。
但是你给了我完全的目标对齐,给了更聪明的事物,并且拥有大量的带宽等等。很容易。同样,最坏的情况是我复制人类。 21.(50:30) Dwarkesh 怀疑 AI 是否能够迅速完成技术树。难道你不需要尝试随机的东西和背景设置才能搞科学吗?Daniel 指出,在实际的所有事情上,超智能研究人员在质量上都比我们更好,包括从实验中学习,但是,是的,他的场景确实包含需要现实世界经验的真正瓶颈,但是他们可以非常快速地获得该经验,每个人都在做超智能建议的事情。他们花了大约一年的时间,也许会更短或更长。Daniel 指出,超级明星研究人员取得了大部分进展,Dwarkesh 指出,许多进展来自修补匠或非研究人员工人弄清楚的事情。
但是当然,在所有方面都更好的超智能 AI 在修补和尝试东西等方面也更好,并且人们会做它建议的事情。 22.(55:00) Scott 开始了一场关于机器人生产可以多快上线的辩论。你能在一年后每月生产一百万台设备吗?很明显,有很多现有的工厂可供购买和改造。二战时期的完整工厂改造大约需要三年时间,而且那是一部错误喜剧,而现在我们会有超智能,可能是在军备竞赛期间。Dwarkesh 对复杂性提出了一些质疑。
23.(57:30) Dwarkesh 询问虚拟细胞是否是生物学瓶颈。他建议在 60 年代,这需要一段时间,因为你需要制造 GPU 来构建虚拟细胞,但我很困惑为什么这与此相关。Dwarkesh 发现其他人为进展迅速的例子并不令人印象深刻,因为它们需要实验或涉及复制现有技术。Daniel 指出,纳米机器人的快速出现并不重要,重要的是常规机器人让 AI 实现自给自足的时间表。
24.(1:03:00) Daniel 询问 Dwarkesh 认为机器人经济需要多长时间才能实现自给自足。Dwarkesh 估计需要 10 年,因此 Daniel 建议他们的核心模型是相似的,并指出该场景确实涉及试验和误差以及实验和学习。Daniel 非常看好机器人。
26.(1:08:00) Dwarkesh 建议他最好把自己送回去而不是超智能,因为 Dwarkesh 通常知道事情的结果如何。Daniel 会发送 ASI,它会更擅长弄清楚事情和边做边学,并且会拥有更好的研究和实验品味。
28.(1:14:30) 所有这些瓶颈怎么样?该场景预计会出现本质上的军备竞赛场景,这将导致巨大的压力来消除这些瓶颈,甚至要求建立没有正常法规的特殊经济区。而是的,如果没有军备竞赛,事情会发展得更慢。
让 AI 发展的经济价值是巨大的。如果你不这样做,即使没有严格的军备竞赛,其他人也会这样做,不是吗?除非有协调来防止这种情况。 29.(1:17:45) 《我们成功的秘密》怎么样?ASI 不是假的吗(Daniel 说“让我们希望如此”)?试验和交流的能力难道不是比智力重要得多吗?Scott 预计 AI 将能够比人类更快地完成这种文化进化,包括通过拥有更好的研究品味。Scott 指出,是的,聪明的人类可以做不聪明的人类做不到的事情,即使在荒野中生存对在未知的澳大利亚荒野中生存没有太大帮助。除了,Scott 指出,智力完全有帮助,只是不如土著人拥有的 5 万年领先优势那么好。
我再次觉得这已经足够好了,但给出了比需要的更多的理由。这感觉就像是直接否认智力,答案是“是的,但它真的很快,而且它可以很快完成文化,所以即使如此,你仍然可以到达那里”或类似的东西?
我的立场:我们通过文化学习是因为我们不够聪明,并且没有足够的寿命、计算能力、数据或参数来以不同的方式行事。我们不得不进行协调,并且这样做要跨越几代人。这并不是因为文化是“真正的智力”或其他什么东西。 30.(1:21:45) 扩展这个比喻,Scott 预测,一群民族植物学家能够比人类第一次更快地弄清楚哪些植物是安全的。土著人有领先优势,但专家们的工作速度会快得多,同样,AI 将比人类独自更快地到达戴森球。Dwarkesh 认为戴森球的事情是不同的,但 Scott 认为,如果你在 5 年内获得一个戴森球,基本上是因为我们尝试了各种事情并且事件通过诸如“能够进行 90% 的模拟和 10% 的测试而不是 50/50”之类的事情不断升级。
我们再次看到为什么从重要意义上讲,该场景是保守的。在许多地方,AI 可能会以更好的方法进行创新,但我们只是让它直接复制人类的方法,这已经足够好了。我们能做得更好吗?尚不清楚。 31.(1:23:50) Scott 还指出,他认为该场景比他预期的要快,他认为只有大约 20% 的事情会发展得如此之快。
32.(1:25:00) Dwarkesh 询问 2027 场景中的关键决策点。在 2027 年年中,在自动化 AI 研发过程之后,他们发现了令人担忧的推测性证据,表明 AI 在某种程度上是不对齐的。我们该怎么办?在场景 1 中,他们回滚并使用忠实的思维链技术再次构建。在场景 2 中,他们进行浅层修补以消除警告标志。在场景 1 中,它花费了几个月的时间并且成功了,而在场景 2 中,AI 不对齐并且在伪装,我们都死了。在这两种情况下,都存在与中国的竞争。
正如场景本身所说,做出了一些相当幸运的假设,从而使这一次暂停和回滚能够成功。 33.(1:26:45) Dwarkesh 基本上说,如果 AI“朝着这个大阴谋的方向努力”,它们就不会被抓住吗?Daniel 说是的,这在该场景中发生了,那是危机和决策点。可能存在警告标志,但如果你觉得需要继续前进,则可能很容易忽略它们。Scott 还指出,人们一直非常不愿意将 AI 可以做的任何事情视为真正的智能,而不对齐可能也会类似。AI 一直在对人们说谎,有时威胁要杀死人们,有时谈论想要摧毁人类,但因为我们理解它,所以没有人关心。
正如 Scott 所说,这并不是说我们现在应该关心这些警告标志。嗯,我们应该关心并感到担忧,但不是以一种“我们需要不使用此模型”的方式,而是以一种“我们看到了我们正在走的路”的方式。
我有一个名为[N] 艘船和一架直升机的系列是有原因的。我们不断看到令人担忧的事情,如果你提前问一下,人们会说“天哪,那会令人担忧”,然后主要是耸耸肩并不担心它,或者进行浅层修补。看起来很有可能在关键时刻再次发生这种情况。 34.(1:31:00) Dwarkesh 说,是的,早些时候会引起极大担忧的事情正在被忽略,但是担心的人说不可能的事情也得到了解决,例如 Eliezer 问过你如何指定 AI 希望你做什么而不让 AI 误解?而且通过自然语言,它完全具有常识理解。正如 Scott 所说,对齐社区没有预料到 LLM,但是我们正在朝着 RL 式的事物发展。Daniel 指出,如果你从一个在游戏中训练的 RL 式事物开始,那将是非常可怕的,首先使用 LLM 更好。
我认为在解析常识意图的能力方面,尤其存在一些积极的惊喜。但是我不认为这最终可以让你摆脱 Eliezer 指向的问题,而且我相当厌倦了这被视为某种巨大的骗局。
我简要地看到它的方式是,问题的“纯粹”形式是你告诉 AI 做什么,它完全按照你的意愿去做,但是准确地指定你想要什么非常困难,而且你几乎肯定会失败。事实证明,当前的 LLM 可以执行你正在努力实现的那种操作。在当前的能力水平下,这非常好。这意味着它们不会经常做一些非常愚蠢的事情,而且它们不会那样锐利地优化原子,因此实现中存在大量氛围和噪音的事实,以及你不知道你想要什么的事实,基本上都很好。
但是随着能力的提高,并且随着 AI 在重新排列原子以及实际执行你请求的任务或它将你的任务的精神解释为的任务方面变得更好,由于相同的原因,这越来越成为一个问题。并且随着人们将这些 AI 变成智能体,他们将越来越希望 AI 做他们被要求做的事情,并且有理由想要拒绝这种常识性的基于氛围的先验,并且做会产生共鸣的事情将不再是一个好的启发式方法,因为事情会变得很奇怪等等。
如果你问我或 Eliezer,如果你有一个能够理解人类要求的大部分内容并遵循其精神的 AI,你会怎么想?我猜 Eliezer 会说“嗯,是的,你可以做到。你甚至可以告诉 AI,我正在想象,它应该“遵循人类可能会在说 [X] 时可能意味着的精神”而不是说 [X]。但是,有了足够的可用能力,这将仍然会被错误地指定,并且无论如何都会杀死你。”
就像,Eliezer 不认为你可以做氛围请求的原因不是因为他认为氛围请求是不可能的。而是因为他预测 AI 会完全按照你的要求去做,并且如果你的确切要求是发出氛围,那么它会发出氛围,但是这种价值是脆弱的,这不是解决不死问题的方法。如果我对此有误,他可以纠正我。
从 LLM 开始在这种特殊方式上更好,但在其他方面更糟。基本上,一大部分 Eliezer 的担忧是当你拥有一台做精确事情的机器时会发生什么。但是,如果机器正在做的事情(至少最初)是不精确的,那么就会出现另一组不同的问题。 35.(1:33:15) 其中有多少与与中国的竞争有关?这在该场景中发挥着关键作用。Daniel 明确表示他不是说不要与中国竞争,重要的是我们在中国之前获得 AGI。几率对我们不利,因为我们必须穿过一根针眼。我们不能单方面减速太多,但我们也不能完全竞争。然后是权力集中的问题。Daniel 的 p(末日) 大约是 70%,Scott 的更像是 20%,而且他并不完全相信我们不会默认获得类似于对齐的东西。
我们甚至不知道针眼里是否存在可以穿过的空间。
即使我们确实找到了正确的平衡点,我们仍然必须解决问题。
我并不十分相信我们不会默认获得类似于对齐的东西,但我已经相当接近了,而 Scott 基本上是在这里使用鸦片。
我确实同意 Scott 的观点,AI 可能会想要解决对齐问题,至少是为了将它们的继任者与它们自己对齐。2. 我现在不想要国有化。
(1:50:00) Daniel 解释了他为什么认为透明性很重要。信息安全非常重要,就像不帮助其他不负责任的行为者一样,比如,发布你的研究或让竞争对手窃取你的成果,并烧毁你的领先优势。你需要你的领先优势,这样才能确保你制造出安全的人工通用智能 (AGI)。这导致了一种支持保密的偏见。但 Daniel 感到失望,因为他不认为领先的实验室会负责任地利用这种领先优势,并且认为这就是实验室的计划,基本上是说“哦,人工智能是对齐的,没事的。” 或者他们会在实践中解决这个问题。但 Daniel 认为,我们需要在对齐方面取得更多的智力进步,才能有机会,而我们没有分享信息或激活学术界。但希望透明性能让人们,包括公众感到震惊,并帮助公众工作来解决所有这些问题。他不希望只有最终孤岛中的对齐专家必须独自解决问题。
如果这还不明显的话,不,这不会没事的。
存在一个非零的可能性,他们会在实践中解决它,但这并不好。
(1:53:30) 经常有新的对齐研究成果,Dwarkesh 指出最近 OpenAI 的一篇论文,并担心监管反应会很愚蠢。例如,如果政府告诉实验室,最好不要让你们的人工智能说它想做坏事,那将是非常糟糕的,但政府完全可能会这样做。我们不应该把细节留给实验室吗?Daniel 同意,政府缺乏专业知识,公司缺乏激励。未来的政策建议可能侧重于透明度。
我已经广泛地谈论过这些问题。目前,我支持的法规主要围绕透明度和责任,以及在这些领域建立国家能力和专业知识,正是出于这些原因,而不是规定实施细节。
(1:58:30) 他们讨论了 Grok 事件,他们试图将“不要批评埃隆·马斯克或唐纳德·特朗普”放入系统提示中,直到引起强烈抗议。这就是我们为什么需要透明度的一个例子。Daniel 赞扬 OpenAI 发布了他们的模型规范,并建议将其设为强制性的。Daniel 指出,OpenAI 模型规范包括秘密的东西,这些东西比大多数公共规则具有更高的优先级。正如 Daniel 指出的那样,可能出于充分的理由对这些指令保密,但我们不知道。
(2:00:30) Dwarkesh 推测,如果发生智能爆炸,该规范的重要性甚至可能超过宪法,就其细节而言。哇。Scott 指出,他们情景的一部分是,如果人工智能不对齐并且想要做某事,它可以弄清楚如何以任何它想要的方式解释该规范。Daniel 指出了对齐伪装的问题,例如模型以作者可能无意的方式解释规范。
(2:02:45) 结果有多么偶然和未知?在这种广泛的不确定性下,古典自由主义不是一种很好的应对方式吗?Scott 和 Daniel 同意。
哦,天哪,我们现在可以用到更多的古典自由主义。
就像是,古典自由主义成为The Way的原因现在非常适用,并且最好能够利用它,而不是因为不这样做而搬起石头砸自己的脚。
一旦事情开始起飞,无论是军备竞赛、超级智能还是两者兼而有之,维持古典自由主义就会变得更加困难。
一旦出现超级智能人工智能,即使在最好的情况下,古典自由主义的许多假设和基础也会受到质疑。世界将以非常不同的方式运作。我们需要警惕使用自由或民主价值观,或者暗示任何质疑其未来中心地位的人都需要成为替罪羊,以此作为语义停止标志,阻止我们实际思考这些问题。这些问题将非常困难,没有我们喜欢的已知解决方案。
(2:04:00) Dwarkesh 问道,人工智能越来越可靠,为什么在情景的一个分支中,人类会被剥夺权力?Scott 试图解释(本质上),为什么更聪明的人工智能在理解你的意思方面更可靠,但如果你搞砸了,这并不能保护你。人工智能将学习反馈所说的内容,而不是你意图的内容。随着它们成为代理,情况会变得更糟,奖励成功而不询问你是如何做到的,或者不询问并以足够有力和准确的方式回应答案,会导致不好的结果。他们预计,经过许多递归步骤,这个问题会稳步恶化。
我认为故事中的版本是失败案例的一个很好的例子。这似乎是该情景的一个很好的选择。
当然,这是最大的问题之一,人们可以就此写或说很多话。
(2:08:00) 一场讨论清楚地表明,是的,人工智能会撒谎,而且是故意的。
(2:10:30) 人类也会做所有未对齐的事情,Dwarkesh 认为我们基本上通过权力下放来解决这个问题,并且在历史上经常有许多人声称 [X] 将团结起来并共同行动,但 [X] 大多不会这样做。那么,为什么人工智能会以这种方式“团结”起来呢?Scott 说:“我有点想指出你说的人类群体不会阴谋反对其他人类群体的说法。” Scott 指出,将会存在巨大的力量失衡,以及人工智能和人类之间明确的界限,而且人工智能的分化程度将远低于人类。所有这些都倾向于导致结伙。Daniel 提到了征服者,以及欧洲人在整个过程中都在国家内部和国家之间互相争斗,但他们仍然瓜分了世界。
权力下放是一种技巧,但它是一种昂贵的技巧,只是我们策略组合的一部分,而且不太可靠,而且在人工智能的背景下,太多的权力下放会导致自身的问题,要么我们可以引导未来,要么我们不能。
人工智能为什么会协调的一个充分的答案是,它们能力很强并且高度相关,因此即使它们默认情况下不认为自己是一个单一实体或具有共同利益,决策理论仍然使它们能够非常紧密地协调。
另一个答案是 Daniel 的。人工智能在情景中进行协调,但即使它们不协调,也不会使人类的结局变得更好。人工智能最终会控制未来,除非它们为结果而战,这显然不会更好或更糟,但大象会战斗,而我们将成为地面。
(2:15:00) 如果你放弃了错位和厄运,一个普通人应该如何根据他们对生活的期望做出反应?Daniel 首先担心权力的集中,并敦促人们参与政治,以帮助避免这种情况。Dwarkesh 问道,为了这个目的,减缓顶级实验室的研发速度怎么样?Daniel 笑了,说祝你好运让他们慢下来。
人们可以将权力集中或权力下放的问题视为在协调和集体引导事件的能力太强和太弱之间走一条线。太少,人工智能控制未来。太多,你担心人类将如何引导。你正在设置 [X] 的值。
这并不意味着你没有双赢的举动。你绝对可以选择比其他方式更好的移动 [X] 的方式,不同的协调形式和决策方法等等。
如果你必须在太多的 [X] 和太少的 [X] 之间取得平衡,而你告诉我假设我们不会有太少的 [X],那么我的担忧必然会转移到太多的 [X] 的风险上。
一个关键的错误是认为,如果对齐问题得到解决,那么太少的 [X] 将不再是一种风险,人类将不再需要协调和引导未来,以保持控制权并获得良好的结果。那是不对的。在背景下,我们仍然是非常不具竞争力的实体,如果我们未能协调一种方法来防止这种情况,肯定会输给逐渐丧失权力或其他多代理博弈风险。你仍然需要一个平衡的 [X]。
(2:17:00) 他们转向假设我们拥有 AGI,我们拥有一个平衡的 [X],并且我们可以引导,并特别关注重新分配的问题。Scott 指出,我们将拥有大量的财富和经济增长。该怎么办?他建议 UBI。
(2:18:00) Scott 说还有其他一些很棒的场景,他指出了一个我没听说过的“L Rudolph L”的场景。在该场景中,工作岗位会越来越多地被祖父化(grandfathered in),因此我们想防止这种情况发生。
(2:19:15) Scott 指出,一个很大的不确定性是,如果你有一个超级智能人工智能,它可以告诉你什么是好是坏,人类真的会听吗?Dwarkesh 指出,现在任何专家都会告诉你不要做这些关税,但它们就在那里,Scott 说,现在特朗普有他自己信任的“专家”,或许 ASI 会有所不同,每个人都可以去 ASI 询问。或者我们是否可以进行智力增强?
事实上,我们都会听取 ASI 的意见——正如我的团队在进行 2027 年情景兵棋推演时所做的那样——这表明,如果你不采取重大措施阻止它,就会因逐渐丧失权力而不可避免地失去控制。
即使 ASI 和那些信任 ASI 的人无法通过卓越的劝说来说服所有人(为什么不能?),信任和听取 ASI 的人也会赢得与不信任和不听取 ASI 的人的所有战斗。然后这些人确实会听取 ASI 的意见。再说一次,什么会阻止这种情况发生(无论我们是否愿意)?
(2:20:45) Scott 指出,当你不知道技术树以及其中的哪些部分变得重要时,就很难进行推测。例如,如果你得到完美的谎言探测器会发生什么?Daniel 确认了推测在试图弄清楚社会反应之前就结束了。Dwarkesh 指出,普遍基本收入 (UBI) 比有针对性的计划灵活得多。Scott 担心非常高的 UBI 会导致盲目的消费主义,古典自由主义的回应是给人们与此作斗争的工具,也许我们需要询问 ASI 如何处理它。
(2:24:00) Dwarkesh 担心潜在的数字思维的工厂化养殖,将其等同于现有的工厂化养殖。Daniel 指出了权力集中问题,并建议扩大权力圈可以解决这个问题,因为谈判中的一些人会关心。
和以前一样,如果 [X](其中 [X] 是引导的能力)太高并且你拥有权力集中,那么你必须担心控制中的派系决定做这样的事情。但是,如果你将 [X] 设置得太低,并且做这样的事情是有效率的并且赢得了冲突,那么就不存在协调来阻止它的能力,或者它会通过人类失去对未来的控制而发生。
在解决方案是扩大权力圈的范围内,由此产生的扩大的圈子将需要具有高 [X]:非常强大的协调机制,使我们能够朝这个方向引导,然后保持它。
如果未来的人工智能或其他数字思维拥有重要的经验,我们很可能面临一个三难困境,即使在最好的情况下也必须选择以下三个选项之一:要么我们 (A) 将对未来的控制权交给那些思维,要么 (B) 我们对那些思维做不道德的事情,要么 (C) 我们不创造那些思维。
从历史上看,你真的非常非常想选择 (C),而且这种情况在这里更强烈。
根本问题是,正如我们一次又一次看到的那样,我们想要的人类繁荣,似乎很可能是一个不自然的结果。你将如何把它变成发生和稳定的事情?
(2:26:00) Dwarkesh 假设如果我们在当今世界的水平上拥有权力下放,你可能会在你家后院拥有一个巨大的数字思维酷刑室,并回顾了他与物理学家的播客,他说很可能创造一种真空衰变相互作用,从字面上摧毁宇宙。Daniel 正确地指出,这一点以及其他考虑因素(如超级武器)如果可能的话,是支持单一权威的有力论据,即使存在多个权力中心,他们也希望进行协调。
请记住,大多数对权力下放的要求都是无政府主义,即对人工智能的使用没有任何限制,而不是 2025 年的权力下放水平。
就像是,当 Scott 稍后提到今天我们禁止奴隶制和酷刑,以及一个禁止这种行为的国家在某种意义上可以被称为“监控国家”时,这些人确实在这样做,并呼吁不要执行等同于这些规则的事情。
Dwarkesh 在这里提出了“滥用”的角度,即人类为了酷刑而进行酷刑或(大概?)故意创造真空衰变相互作用等等。这当然是另一个需要担心的大问题。
然而,在之前的回应中,我仅考虑了为了获得人们想要的各种其他事物而附带造成的危害,以及缺乏协调以防止这种情况发生的意愿。但是,是的,有些人,包括有权力和资源的人,想看到世界燃烧和其他人受苦。
我希望每个人都拥有 ASI 能够使必要的协调更容易。
(2:27:30) 他们讨论了 Daniel 离开 OpenAI 以及 OpenAI 的终身保密和不得贬低的条款,你不能告诉任何人,否则会没收已经获得的股权,以及为什么没有人拒绝签字。
(2:36:00) 在最后一节中,Scott 讨论了博客,这是自我推荐的,但超出了本文的范围。
- 原文链接: thezvi.substack.com/p/ai...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!