分析对“AI 2027时间线预测”的批判

  • thezvi
  • 发布于 2025-04-29 17:34
  • 阅读 25

本文是对LessWrong用户,substack作者Titotal对AI 2027时间线预测的深入批判性分析。

2025年6月24日

在LessWrong用户及Substack作者Titotal撰写的一篇高质量评论中,对AI 202的timeline组件进行了深入剖析 7。

有这样经过深思熟虑的评论是件好事。当然,获得这种实际的、经过深思熟虑的评论的方式,是在互联网上发布(冗长的)错误答案,然后通过听取反馈并使你的模型不那么错误来回应。

这是对该部分的深入、细致、真实的参与,包括给原始作者提供评论评论的机会,警告要注意错误,提供响应时间,分享用于生成图表的代码,详细参与,进行大量数学工作等等。这才是正道。

所以,Titotal:谢谢你。

我首先注意到,至少Daniel Kokotajlo确实调整了他的估计,并且根据发布以来的事件,已将他的中位数从“AI 2027”移至“AI 2028”,并且Eli的修订也将估计推迟了一些。

我还首先注意到,如果你用这种严谨程度评估话语中的大多数陈述(无论是未担心的AI预测,还是AI总体,或者更广泛地讲),那么你基本上做不到,因为你会很快遇到“我编造的”,但在其他人至少尝试一点的情况下,根据我的经验,模型崩溃得更糟糕、更快。没有人提出“这是一个更好的预测未来的尝试,并且认真对待整个事情”,我认为这有合理的理由。

很多分歧归结为,在不同的背景下,人们应该在多大程度上关心哪些计算和图表与过去的数据有多么紧密地匹配。Titotal要求始终都非常严格地遵守。我认为挑战并戳破差距是件好事,但这在几个地方似乎太过分了。

目录

  1. 标题信息不太理想

  2. 超指数性来源的解释

  3. 三种方法

  4. 时间范围扩展法

  5. 公共与内部差距

  6. 难度差距

  7. 最近的进展

  8. 无限的时间范围

  9. 中间加速

  10. 是否还有有缺陷的图表?

  11. 对预测的一些怀疑

  12. 第二部分:基准和差距及其他

  13. 基准

  14. 第二个模型的时间范围部分

  15. 为什么有阈值?

  16. 差距模型

  17. Eli在LessWrong上的回应

  18. 关于Eli最近的更新

  19. 结论

  20. 也许是最重要的分歧

标题信息不太理想

请注意,本节是关于讨论而不是模型,因此你们中的很多人可以跳过它。

虽然我想再次预先说明我非常感谢这项评论的内容,但如果能对这些评论进行同样周到的标题呈现,那也很棒。唉,我们没有得到(虽然再次感谢你写了这篇文章!)。

它被称为“对AI 2027的糟糕时间线模型的深入评论”,你完全可以使用“糟糕”这个词,我们仍然会知道你对它有强烈的不同意,并且在整个过程中有很多类似的谈话,从标题开始,然后是这个,的第一个用法:

Titotal(原始格式):这篇文章很长,所以我只关注了一个部分:他们的“时间线预测”代码和随附的方法论部分。毫不客气地说,我认为这很糟糕

我不是完全“ 请重新考虑你对形容词的使用”,但是,嗯,也许?这是对在这里使用“糟糕”这个词的积极辩护:

Neel Nanda:我基本上同意 [尝试避免称事物为糟糕],但认为titotal的特定用法是可以的。在我看来,这篇文章的主要目的不是与AI 2027进行互动,这已经在私下里进行了广泛的讨论,而是向更广泛的社区传达他们的观点。

特别是标题非常有限,很多人只阅读标题,标题是人们决定是否继续阅读的关键方式,沟通效率非常重要。

他们试图传达的观点是,被视为高地位和声望的这些模型不应该是,我不同意非暴力沟通能够达到与该标题类似的效果(注意,我不太喜欢他们构建这篇文章的方式,但我认为从他们的角度来看这是完全合理的。)

我的意思是,是的,如果这篇文章的目的是降低AI 2027的地位和声望,并通过人们阅读标题并以这种方式更新来实现,而不是提供有用的评论,那么标题确实是实现该目标的最佳本地方式,认知共享都被破坏了。我希望有一个不同的目标?

还有更多这样的抨击,以及贯穿始终的匹配态度和框架,在其实际内容中是一组出色的评论 - 我发现很多我反对的东西,但我认为这里的一个好的评论应该看起来像那样。你的大多数反对意见应该得到成功回答。其他一些可以改进。这都是系统按设计工作,并且评估与内容不匹配。

跳到前面,作者是一名物理学家,这很棒,但他们实际上是在很大程度上以物理模型的标准来衡量AI 2027,然后才认为它适合任何人用来做生活决定,即使这是“建模性能的峰值”。

但你不能回避这些决定,而且贝叶斯规则是真实的。分享一个人的概率估计和背后的原因非常有用,你可以而且应该用它来帮助你做出更好的决定。

然后,Tyler Cowen对批评的呈现加剧了这一点,标题为“AI末日圈中的建模错误”(这在多个层面上都是贬义的),称批评“出色”(批评在其标题中称原始“糟糕”),然后将此作为论据,证明他们应该……将AI 2027提交给期刊?嗯?

Tyler Cowen:链接中有更多细节(以及其他场景)。多年来,我一直在推行“AI末日言论需要传统的同行评审和正式建模”的观点,我将这一事件视为对该观点的辩护。

这在几年前是荒谬的。现在同样荒谬,除非这种沟通的目的是降低其主题的地位。

这就是同行!这就是评论!这就是一切运作的方式!这就是它的运作方式!

典型的“如果你想要正确的答案,就在互联网上发布(理想情况下不太)错误的答案。”系统运行正常。而传统的同行评审在这里完全崩溃了。

事实上,Titotal自己也这么说。

Titotal:AI 2027与其他类似的短篇小说不同之处在于,它被呈现为基于预测专家严格建模和数据分析的预测。它附带有五个附录,“详细的研究支持这些预测”和一个用于模拟的代码库。

……

现在,我最初很高兴驳斥这项工作,只是等待他们的预测失败,但这件事一直在传播,包括一个youtube视频,有数百万的观看次数

正如:我不会参与任何这些,直到我看到它获得数百万的观看次数,直到那时我才真正看任何内容。

这很艰难但完全公平,这是一个高度明智的决策算法,除了Titotal在实际查看之前就将整个事情视为虚假部分。

这意味着很明显。你想要同行评审?用浏览量来赢得它。获得同行。

看到这两个并列在一起很奇怪。你可以为那些阅读了整篇文章的人获得详细的、经过深思熟虑的评论。对于那些没有阅读的人,在开头和结尾,你会获得氛围。

此外(我在分析完这篇文章后才发现),事实证明这个人的substack(名为Timeline Topography Tales)专注于,嗯,我将让Titotal解释,通过按顺序分享最新的标题和相关的标语,这些标题和标语在你点击“查看全部”之前出现:

15个简单的AI图像提示,难倒了ChatGPT

Slopworld 2035:平庸AI的危害。所有这些都不是在AI的帮助下编写的。

AI暂时不会接管材料科学:分析和会议报告。信心检查:这是我的专业领域,我从事这个领域的工作,并且拥有该学科的博士学位。

极客约会指南:免责声明:这个博客通常是关于揭穿奇点极客的。这不是一篇典型的文章,也不是我的专业领域。

理念的有围墙市场:对SSC书评的统计评论。

“超人”AI预测是胡说八道吗?来自AI安全中心的“539”机器人的一些实验。

大多数聪明和有技能的人都在EA/理性主义社区之外:一项分析。

我不是说这是个有偏见并一直在磨刀霍霍的人,但事实就是如此。

尽管如此,这确实是一篇内容充实的优秀文章,因此在撰写本文时,LessWrong已将此文章授予273 karma,非常高,超过了我以往任何一篇文章获得的,并且在EA论坛上获得了213 karma,也超过了我以往任何一篇文章获得的。

好的,在上面说完了这些之后,谁想留下来做预测?

超指数性来源的解释

这最初让我绊倒了,所以值得预先澄清。

AI 2027模型有两个截然不同的超指数性来源。这就是为什么Titotal稍后会谈到有一个指数模型和一个超指数模型,然后有一个应用于两者的超指数效应。

第一个来源是AI自动化AI研发。应该清楚为什么会存在这种效应。

第二个来源是,一旦所讨论的长度超过基本阈值,任务的长度或可靠性加倍的难度就会降低。正如,在某些时候,从可靠地完成一年任务到两年任务要比从一小时到两小时,或从一分钟到两分钟容易得多。我认为这在人类身上是真实的,并且在所讨论的情况下,AI也可能是真实的。但是你当然可以挑战这一说法。

好的,这就是预先说明的,接下来是对主线的解释。

三种方法

总结一下AI 2027模型的分解:

  1. 最重要的数字是开发出“超人程序员”(SC)的时间,他们可以比人类更快30倍、更便宜30倍地完成AI研究员的工作。

  2. 使用了两种方法,“时间范围扩展”和“基准和差距”。

  3. 还有一个普遍的主观“综合考虑”。

时间范围扩展法

Titotal(与我的理解相符):时间范围方法基于本报告中的80%时间范围,其中METR团队试图比较AI在各种AI研发任务中的表现,并通过与人类研究人员进行比较来量化它们的难度。1小时的80%“时间范围”意味着AI在一系列选定的任务中总体成功率为80%,这些任务需要人类AI研究人员完成1小时,大概花费的时间比人类少得多(尽管我找不到明确的说法)。

METR报告的说法是,AI可以完成的任务的时间范围一直在以指数速度增长。以下是显示此进展的图表之一:请注意y轴上的对数刻度:

Titoral警告说,这份报告“非常新,未经同行评审,也没有被复制”。好的。当然。AI飞速发展,上面的图表已经过时,并且o3和Opus 4(甚至Sonnet 4)数据点应进一步支持“最近进展更快”的假设。

第一个抱怨是他们不包括当前估计中的不确定性,并且这被框定为(你经常看到这种情况)单向不确定性:也许结果是准确的,也许太激进了。

但我们不知道这是否是新常态,或者只是噪音,还是我们会回到某个时候的长期趋势的暂时性反弹。例如,如果你查看摩尔定律图,有很多点的增长暂时高于或低于长期趋势。你要估计的是长期曲线参数,而不是当天参数。

这已经非常接近于假设结论,即存在长期趋势线(一种“常态”),而我们只需要找出它是什么。这直接与正在受到批评的中心论点相悖,该论点是当AI加速编码和AI研发时,曲线会以积极的反馈循环弯曲。

这里有三种可能性:

  1. 我们最近出现了比“正常”进展更快的短暂波动,并且会回到趋势。

  2. 你甚至可以建议,这是推理模型和推理缩放的最后一口气,很快我们就会完全停滞不前。你永远不会知道。

  3. 我们有了一个“新常态”,并将继续沿着新的趋势发展。

  4. 我们有一种事物加速的模式,它们将继续加速。

这就是整个“超指数”部分出现的地方。我认为这里的好评是,我们应该对这些的真实性有很多不确定性。

那么“超指数”曲线是怎么回事?他们选择将其建模为“每个后续的加倍时间比前一个加倍时间短10%”。Titotal进行了一些变换数学(我不会检查),并绘制了曲线。

就像之前一样,初始时间范围H0参数不受不确定性分析的影响。这里更疯狂的是,加倍增长率(我们称之为alpha)也没有受到不确定性的影响!(请注意,这已在Eli的最新版本中进行了更新)。正如我们将看到的,这个alpha参数是整个模型中影响最大的参数之一,因此他们没有对它进行任何不确定性建模,只是随意选择了一个10%的值而不解释他们为什么这样做,这太疯狂了。

这里的中心批评似乎是不确定性不足,基本上这里的所有参数都应该是不确定的。我认为这是正确的。我还认为这是对大多数时间线预测的正确的一般批评,即人们的行为远比他们应该表现出的确定性要高。请注意,这是双向的——它使事情发生的可能性降低了很多,但也可能更快。

AI 2027的预测正在做的是使用不同曲线类型的组合来概括不确定性,而不是还试图将不确定性完全纳入所有单个参数中。

我也同意这个实验表明有些东西是错误的,而修复模型的一个好方法是摆弄它,直到它在某些假设的世界中产生愚蠢的结果,然后弄清楚为什么会发生这种情况:

很明显,不得不经历更多的加倍应该比这更重要。如果我们目前处于15纳秒的数量级,你不会将p(SC在2025年)设置为5.8%。大量改变初始条件似乎会破坏模型。

如果你考虑一下模型建立的方式,你就能明白为什么它会崩溃。该假设是,随着AI的改进,它获得了进一步加速AI研发进展的能力,并且这可能正在开始发生,或者其他事情可能仍然会超指数地发展。

这些概率应该从此刻开始具有前瞻性,而我们知道它们要到此时才会发生。如果我们“在过去”建模这情况,而不知道我们现在所知道的,那么我们应该在什么时候启动这种效应还不清楚,但在几分钟的任务之前(正如在最近的潜在趋势线变化之前),它显然不应该启动,因为人必须参与其中,而你也节省不了多少时间。

因此,是的,如果你在此之前启动它,模型就会崩溃,理想情况下,你应该强制超指数效应在H至少几分钟长之前不要启动(可能带有一些逐渐的相位引入)。鉴于我们使用的是固定的H0,这无关紧要,但如果你想在H0较低的情况下使用该模型,则必须修复它。

到目前为止,我们对当前的H0有多少不确定性?我认为如果你对这意味什么持高标准,那么争论几分钟的数量级是合理的,但仅凭眼球测试,我认为15秒的数量级显然是不可能的。

同样,还有一种说法是,如果你将这些方程式扩展到某个点之后,它们就会给你疯狂的数字。而且我会说,嗯,是的,如果你达到了奇点,那么你的模型输出明显的无稽之谈是一种可以接受的失败模式。甚至很合适。

下一节询问为什么我们通常使用超指数曲线,以及特别使用这种“超指数”曲线。

公共与内部差距

那么,他们为超指数性提供了什么论据?让我们来看看,没有特别的顺序:

论据1:公共与内部:

“如果我们考虑到公共与内部的差距似乎随着时间的推移而缩小,那么这种趋势可能会进一步倾向于超指数性。

……

但即使我们接受这个论点,这种效应也指向较慢的增长率,而不是更快的增长率。

我认为我们应该接受这个论点,并且Titoral在这件事上也是正确的。新的曲线表明进展稍微慢一些。

反驳的论点是,我们过去曾因模型之间的这种等待而受到阻碍,这体现在两个方面。

  1. 在模型未发布时,其他人无法了解、查看、访问、提炼或以其他方式关注你的模型,这在以前会减慢进展。

  2. 在等待期间,没有人可以使用该模型直接加速进展。

对反驳的论点的回复是,直到最近,通过使用模型进行的直接加速还不是一回事,因此该效应不应起作用,并且主要趋势线是OpenAI模型,因此该效应也不应起太大作用。

我可以看到两个方向上的影响,但总的来说,我确实认为在这种特定情况下,较慢方向的论点更强。我们只能通过鲁莽地发布新模型来加速一次,而且我们已经用完了。

稍微偏离主题,但值得注意的是,在AI 2027中,这个差距再次扩大。顶尖实验室知道其顶尖模型可以加速AI研发,因此它不会发布最新的版本,不是为了安全,而是为了赶在竞争对手之前,并将更多的计算资源用于进一步的研发。

难度差距

这个论点是,时间加倍变得更容易了。据说,从能够始终如一地将一个小时的任务串联成一个星期,比一个星期到一年更为重要的概念差距。

Titoral对AI和人类都对此持怀疑态度,尤其因为我们有很多短期教程,但很少有长期教程。

我会说,学习如何执行固定的短期任务(你遵循指示)肯定比一般的“执行分配的任务”容易得多,但一旦你过了那个阶段,我认为反驳论点就没有多大意义了。

我同意这里通用的“需要更多研究”风格的呼吁。基本上在任何地方,都需要更多研究,更好的理解会很好。在那之前,最好选择你拥有的东西,而不是举手投降,说出“没有证据”的变体,当然,人们可以自由地不同意所选择的幅度。

在人类中,我认为一旦你能保持自己的完整,难度差距显然是真实存在的,一旦你过了“学习基本组件”的阶段。你可以在极端情况下看到它。如果你能可靠地维持一年的努力,那么你已经解决了维持十年的大多数内在困难。

十年更难的主要原因(一百年则更难得多!)是因为生活会妨碍你,你会变老和改变,这会改变你的优先级和能力。在某些时候,你正在移交给继任者。如果人类是一个不老Em,那么人类基本上可以获得无限的任务长度,有很多任务都是如此。

在这种情况下,对于AI来说,衰老和相关概念不是问题。如果你能维持一年,为什么你不能维持两年?答案大概是“复合错误率”加上更长的规划时间范围,但是如果你可以使用从故障中恢复的系统设计,那么这本身就解决了,并且如果你将不可恢复的错误率降低到零,或者让他们足够相关,那么你就完成了。

最近的进展

最近的加速对于这种特定类型的超指数曲线来说是相当薄弱的证据。正如我稍后将展示的那样,你可以提出很多不同的超指数方程,你必须为你的特定方程辩护。

剩下的就是“扩大规模的机构培训”。METR报告确实说这可能是最近加速的原因,但它没有说“扩大规模的机构培训”是一个超指数因素。如果机构培训只是最近才开始的,那么相反,这可能是我们最近的进展只是将我们推向了更快的指数机制的证据。

或者,正如METR报告指出的那样,这可能只是最近进展的结果:“但是2024-2025年的机构培训也可能是通过采摘低垂的果实获得的一次性提升,在这种情况下,一旦这些收益耗尽,视野增长将放缓”。

这似乎是一种论点,即严格指数曲线应该具有非常强的先验?所以如果你想声称更多,你需要努力论证?

“机构培训”导致更快的加倍曲线这一论点似乎很强。当然,我们无法“证明”它,但预测的目的是弄清楚我们实际上最好的预测和模型,而不是通过某种理论上的稳健性检查,或者有力地表明事情必须是这条精确的曲线。

这种可能“仅仅”让我们进入了一个新的更快的指数吗?绝对有可能,但是这种可能性是AI 2027模型的明确组成部分,而且早先Titotal还在争辩说我们不应该认为指数可能会永久改变,并且他们没有在这里承认所涉及的机制使得这种转变很可能真实发生。

我在上面也提到了“一次性提升”的可能性,但是在我看来,如果这是一次“提升”,我们已经接近完成,这是非常难以置信的。很明显,与代理相关的解除束缚还有很多工作要做。

无限的时间范围

超人AGI是否应该具有无限的时间范围?AI 2027并没有完全赞同他们的论点,但我认为很明显,在某些时候,加倍基本上是免费的。

Titotal回应说,如果AI可以完成非常长的时间范围CS任务,那么它将是一种超级智能,对此我将点击标牌,上面写着我们正在明确考虑关于超级智能的真实情况。这就是建模任务。

这里的另一个论点是,考虑到Graham的年份数(并且大概还有某种形式的永生,如前所述),人类可以完成相当可怕的事情,嗯,是的,即使你强迫他们不要走明显正确的道路,即首先构建一个超级智能来为他们完成。但我确实认为这里存在一个实际的限制,如果人类也必须进行所有的验证,那么再多的打字猴子也无法写出莎士比亚,但他们事后无法弄清楚他们把它放在哪里了,他们最快的解决方案本质上是进化成人类。

或者,我们所说的只是“AI可以完成任意任务,只要它们在物理上是可能的”,在这一点上,人类是否也可以完成它们并不重要,这种指标显然没有以有用的方式映射到现实,并且已经证明了这一点。

中间加速

现在,如果你阅读上面部分中的理由,你可能会有点困惑,为什么他们没有提出超指数性最明显的理由:AI变得更好,人们将能够使用AI进行研发研究,从而导致AI开发更快地反馈循环。

这样做的原因是他们明确地假设这是真的,并将其应用于每个模型,包括“指数”和“亚指数”模型。实际上,在他们的模型中,“指数”模型也是超指数模型。

(注意:在Eli的最新模型中,这要复杂得多,我稍后会谈到这一点)

Titotal带领我们完成了计算,这本质上是一条平滑的曲线,该曲线根据正比于向完全超人程序员取得的进展的反馈循环来加速进展,并以一种可以轻松计算的方式实施,因此它不会因参数更改而失控。

Titotal的第一个反对意见是,这种预测(如果你倒过来计算)意味着AI算法的进展目前比2022年快66%,而Nikola(其中一位预测人员)估计当前算法的进展仅快3%-30%,并且试图在其中硬编码不同的答案不起作用,因为相对速度才是重要的,而他们试图改变绝对速度。这在技术上似乎是正确的。

问题是,这种不匹配最终有多重要?从2022年到2025年的加速因子确实有可能为10%(1 → 1.1),并且随着AI进入更普遍有用的领域,未来的发展速度将更快。

正如,如果你有代理或虚拟员工,则它需要跨越某个阈值才能有用,但此后,它会迅速变得更有用。但这并不是模型的工作方式,因此需要对其进行修改,而且是的,我认为我们应该对我们可以在此处的过渡阶段获得的算法进展加速量更加怀疑,以及获得SC所需的进展量,或者两者兼而有之。

在详细介绍了这些曲线之后,这总结了对曲线过去部分缺乏良好拟合的反对意见:

我假设真实数据主要在这些曲线的80% CI之内,但我认为实际数据不应该是你模型的边缘情况。

因此,为了完成“超指数”部分,他们模型中的特定曲线与经验数据不符,而且正如我之前所说的那样,它也没有什么概念上的理由。我看不到将此曲线分配给40%概率空间的理由。

我不认为第75个百分位数是“边缘情况”,但我确实同意这很可疑。

我认为“超指数”曲线描述的是一种未来的现象,由于每个人都理解的原因,除非你努力设计方程式来做到这一点(这似乎在这里并不划算),否则你不应该期望它与过去的时间相匹配。

是否还有有缺陷的图表?

这是有问题的图表,它的问题正在得到解决。

我同意这张图表和它的呈现方式的各个方面都不是很好,特别是使用15%的更容易每次加倍的曲线,而不是AI 2027实际使用的10%,并称其为“我们的预测”。我确实认为它主要用于粗略地了解正在讨论的内容,但更精确会更好,我很高兴这一点正在得到修复。

对预测的一些怀疑

这种异议在很大程度上是因为METR曲线上只有11个数据点(现在有更多的数据点),你可以使用现在看起来基本相同但给出截然不同的未来结果的曲线来拟合它。是的,我同意,这就是重点,如果有什么的话,我们在这里低估了不确定性,我们可以同意,即使我们致力于使用完全简化和完全最佳拟合过去的模型,我们也会得到一系列结果,其中显着包括2028-2029年的SC。

我的确认为可以说,AI 2027设置超指数曲线的方式比你想要更多的自由变量,如果你只想做这些,但是很多这些参数远非自由变量,并且没有被为了拟合过去的曲线数据而被选择。

第二部分:基准和差距及其他

基准

我们现在转向第二个更复杂的模型,Titotal说在很多方面都更糟,因为如果你使用复杂的模型,你必须证明复杂性的合理性,但它没有。

我认为描述第二个模型的更好方法是,它预测了在类似于重新基准饱和的能力附近取得了进展的速度的转变,此后,事情将以更快的速度发展,并使用重新基准测试点作为模拟这一点的实用方法。

方法 2 首先预测在 Re-bench(METR 准备的,一组 ML 研究工程任务上衡量 AI 技能的基准)上达到特定分数(称为“饱和”)所需的时间。之后,时间范围扩展模型的使用方式与方法 1 相同,只是开始时间较晚(当 Re-bench 饱和时),结束时间较早(当达到某个复杂的阈值时)。

在该停止点之后,估计了 5 个新的差距,它们只是常数(像往常一样,从对数正态分布中抽样),然后将整个过程通过一个中间加速模型运行。因此,对模型 1 的任何批评也适用于模型 2,只是会被所有常数差距估计和“re-bench”部分稀释。

稍后开始的原因很明显,在 AI 的技能能够胜过不使用 AI 之前,你无法真正开始使用 AI 的技能来完成 ML 研究任务。因此,你实际上拥有的是一种“影子曲线”,它一开始是超级负面的 - 如果你在 2017 年尝试使用 AI 来完成你的 ML 任务,你的表现显然会比你自己完成要差得多。然后在 2020 年代的某个时候,你就会跨越这个门槛。

我们还需要一个曲线的顶部,因为这是一个基准,并且本质上即使底层技能没有饱和,它也会饱和。在某种意义上,S 曲线的顶部是人为的,在某种意义上则不是。

Titotal 指出,在你确定已经达到顶部之前,你无法有意义地最佳拟合 S 曲线,因为你不会知道顶部在哪里。他们认为我们不知道基准测试何时会饱和,将其预测为 2 是随意的。对此我会说,好吧,很奇怪,但如果这是真的,谁在乎呢?如果最大值是 3,而且我们在达到 2 之后才接近它,那么这是关于基准测试的事实,而不是关于现实的事实,而且没有什么重要的东西会改变。正如我后来意识到 Titotal 也注意到,只要你高于人类的表现,就不会对事情产生实质性的改变,那么我们为什么要进行这次对话呢?

这是一个普遍的模式。吹毛求疵是好的,但你应该知道你什么时候在吹毛求疵,什么时候不是。

当你进行预测或建模时,如果且仅当这些决策对结果有重要影响时,你才需要为你的决策辩护。如果它无关紧要,那就无关紧要。

说到无关紧要,天啊,它真的无关紧要吗?

第 2 步是把这个计算扔进垃圾桶

我是认真的。看看代码。变量 t_sat_ci,“能力饱和日期的 CI”,是由预测者设置的,而不是计算出来的。代码中根本没有与 RE-bench 数据相关的函数。随便看!更新后的代码中也没有。

……

Eli 给出的饱和度的 80% CI 是 2025 年 9 月到 2031 年 1 月之间,而 Nikola 给出的饱和度的 80% CI 是 2025 年 8 月到 2026 年 11 月之间。这两个都与两张图中第一张图中的 80% CI 不同,第一张图中的 80% CI 是 2026 年初到 2027 年初。虽然 Eli 的中位数要晚得多,但两个分布的峰值都比实际的 Re-bench 计算早了大约半年。

Eli 告诉我,饱和时间的最终估计是受到逻辑曲线拟合的“启发”,但如果你向上看,它们是非常不同的估计。

这些确实是非常不同的三条曲线。上面的计算似乎是一种直觉泵或基线,他们转而使用预测者的预测,Nikola 预计它会比预测发生得更快,而 Eli 则有更多的不确定性。我确实认为 Nikola 在这里的预测似乎不合理地快,如果他现在还没有更新,我会感到惊讶吗?

Eli 承认该网站应该明确说明情况,他会修复它。

Titotal 说我们已经“抛弃”了附录中的 re-bench 部分。我说不,事情不是这样运作的,是的,我们没有直接使用上述模型的输出来进行数学运算,但我们仍然在预测 re-bench 的结果,并使用它来为更广泛的模型提供信息。这应该已经明确说明,我对 Eli 和 Nikola 在这方面的图表持怀疑态度,尤其是 Nikola 的图表中快速突然的峰值,但所使用的技术是你有时会想要做的事情。

第二个模型的时间范围部分

所以基本上我们现在做了和之前一样的事情,除了很多事情都发生在未来。

Titotal:好的,所以我们刚刚扔掉了附录中的 re-bench 部分。接下来会发生什么?好吧,接下来,我们进行另一个时间范围计算,使用与方法 1 基本相同的方法。只是我们现在开始得晚了,所以:

他们猜测我们达到 re-bench 饱和的年份。

他们猜测我们在达到 re-bench 饱和时的时间范围。

他们猜测我们在达到 re-bench 饱和时的加倍时间。

他们猜测我们在达到 re-bench 饱和时的研发加速速度。

然后,他们使用这些参数来执行第一部分的时间范围计算,并设置一个较低的截止阈值,我将在稍后讨论。

而且他们也没有充分的理由做出这些猜测。我可以理解,达到 RE-bench 饱和可以为你提供一些关于时间范围的信息,但不能提供诸如加倍时间之类的信息,加倍时间是与长期趋势密不可分的最关键参数之一。

撇开截止点不谈,是的,这显然是你应该如何做。在我们之前估计这些变量时。如果你从未来开始,你想要知道当你到达支点时它们是什么样子的。

假设你可以通过在前一个时期运行你的模型来解决这个问题,就像你在第一个例子中所做的那样?只是这与 re-bench 进展的速度相关,所以它本身不起作用。我的猜测是你可能想要将一定百分比的权重分配给日期,并将一定百分比的权重分配给你的中位数支点日期时的样子。

并且对加倍时间的估计很奇怪。对 re-bench 饱和时加倍时间的中位数估计约为 3 个月,这比他们目前对加倍时间的估计低 33%。他们为什么要降低它?

嗯,部分原因是根据超指数模型,在 re-bench 饱和期间应该会有加速。

Titotal 随后重复了关于一切都是超指数的担忧,但我没有看到这个问题,尽管我会进行不同的计算来决定我在这里的期望。

我也不理解“这个模拟预测 AI 的进展将冻结两年”的评论,因为我无法解析为什么会有人这么说。

为什么设置阈值?

现在我们来到了一个我实际上比 Titotal 更担心的地方:

另一个主要的区别是,这个时间范围模型只到较低的阈值,对应于 AI 达到以下要求的时间:

“能够开发各种与 AI 研发过程相关的软件项目,这些项目涉及修改最多 10,000 行代码,这些代码分布在总计 20,000 行的文件中。提供明确的说明、单元测试和其他形式的真实反馈。对于人类需要大约 1 个月(由“初始时间范围”参数控制)才能完成的任务,以 80% 的可靠性完成,并具有与人类相同的成本和速度。”

尽管第一种方法中 SC 所需的时间范围相差 2 个数量级,但在达到这个基准时,它们在阈值上完全一致,它们都将中值定为半个月。

这对我来说很奇怪,但我不会深入研究它。

我有点想深入研究一下,以及他们如何选择第一组阈值,因为这似乎相当重要。我想了解这些不同的分歧是如何相互作用的,以及它们如何才能放在一起是有道理的。

这对于我如何看待这些事情至关重要。你发现一些可疑的东西,看起来不太对劲。你提出质疑。他们会解决这个问题。重复上述过程。

差距模型

我认为我基本上同意这里的核心批评,即这包括以一种似乎很难正确理解的方式来猜测未来的技术,它真的主要是一堆猜测,并且不清楚这种复杂性是否正在帮助模型变得优于做出更普遍的猜测,或许可以将此用作直觉泵。我不确定。我不认为这会导致主流结果的重大分歧,是吗?

Eli 在 LessWrong 上的回应

除了更新模型之外,Eli 还发表了以下评论

我不理解这是一种“糟糕的回应”的观点。这似乎正是所有这些应该如何运作的方式,他们正在纠正错误和解决沟通问题,回应其余的问题,甚至在没有提示的情况下提供 500 美元的赏金。

Eli 首先链接到 5 月 7 日对模型的更新

以下是 Eli 对“最重要的分歧”的回应:

  1. 是否要估计和建模我们没有经验数据的动态。 例如,titotal 说“对该模型的经验验证很少”,并且尤其批评了对超指数性的建模,认为其没有经验支持。我们同意,如果能够对更多模型组件进行更多经验验证,那就太好了,但不幸的是,在纳入所有高度相关的因素时,目前这是不可行的。[1]

  2. 是否要根据数据之外的因素调整我们的估计。 例如,titotal 批评我们对 RE-Bench 饱和的日期做出判断性预测,而不是插入符合逻辑的拟合。我强烈赞成在估计参数时允许在定量建模的基础上进行直观调整。

  3. [不确定分歧程度] 一个“最不坏”的时间表模型的价值。 虽然由于时间有限以及预测 AGI 时间表的固有困难,该模型肯定是不完善的,但我们仍然认为总体而言,它是目前“最不坏”的时间表模型,并且它在我的整体时间表观点中最为突出。我认为 titotal 不同意,但我不知道他们认为哪个是最不坏的(也许是 METR 在他们的 时间范围论文 中提出的更简单的模型?)但即使 titotal 同意我们的模型是“最不坏的”,我的感觉是他们可能仍然比我们更负面地看待它。我很高兴发布一个最不坏的模型的几个原因:

  4. 推理透明度。 在时间有限的情况下,我们希望证明 AI 2027 的时间表是合理的。我们认为,即使建模存在重大缺陷,也应该公开我们的估计来自哪里,这是很有价值的。此外,它允许像 titotal 这样的人批评它。

  5. 推进技术发展水平。 即使一个模型存在缺陷,发布它以告知其他人的意见并允许其他人在此基础上构建似乎是最好的。

正如上面所讨论的,我的理解是,如果以一种没有贴上“坏”的标签并警告不要将其用于任何用途的方式呈现,titotal 确实反对“最不坏”的模型。 我在这里强烈支持 Eli。我也赞同 Thane 的观点,即“最不坏”本身是不够的,现实并不会按曲线评分,你必须达到最低质量阈值才能有用,但我确实认为 它们达到了那个阈值。

正如之前讨论的那样,我认为#1 也是一个完全公平的回应,尽管在这些估计及其来源方面还有其他问题需要深入研究。

  1. 在考虑 AI 研发自动化之前,时间范围增长呈超指数的可能性。 请参阅此部分,了解我们支持超指数性合理的论点,以及 titotal 的回应(我在原始模型中将其设置为 45%)。此评论线程有进一步的讨论。如果你对没有固有的超指数性非常有信心,那么到 2027 年底出现超人程序员的可能性会大大降低,但如果你同意我们的其余建模选择,那么仍然会 >10%(有关最新模型生成的并排关系图,请参见此处)。

  2. 进展的超指数有多强。 此部分认为我们对超指数函数的选择是任意的。虽然我们同意该选择是相当任意的,并且理想情况下我们应该对最佳函数存在不确定性,但我的直觉是,在一定程度的超指数性的前提下,titotal 提出的替代曲线感觉不如我们在报告中使用的曲线合理。

  3. 在较高的时间范围内,支持超指数的论点是否更强。 titotal 对为什么有时会有延迟的超指数而不是从模拟起点开始感到困惑。这里的推理在于,在较高的时间范围内,支持超指数性的概念论点要强得多(例如,从 100 年到 1,000 年可能比从 1 天到 10 天容易得多,而对于从 1 周到 10 周与从 1 天到 10 天相比,则不太清楚)。尚不清楚延迟的超指数性是否是对此进行建模的完全正确的方法,但这是我现在想出的方法。

我认为这里的 3b 不是一个很好的解释,因为我最初误解了它,但 Eli 已经澄清说,它的意图与我之前关于在过去的某个时间点,更容易转向更长的任务与“学习基本组件”阶段相符。而且我也担心这会放弃很多真正的反对意见,尤其是指向多个不同的超指数来源(我们既有 AI 研发的自动化,也有未来任务难度曲线下降的可能性),他将其列在“其他分歧”下,并表示他尚未对此进行调查——我认为这可能是目前最需要调查的首要任务。我发现“你必须选择一条曲线,而这似乎是最合理的曲线”的回应,虽然显然不是理想的世界状态,但在这种情况下非常合理。

然后,他指出了另外两个分歧并承认了三个错误。

关于 Eli 最近的更新

Eli 发布了一项更新,以回应 Titotal 批评的草案。

新的估计值通常晚一两年,这与我之前从 Daniel Kokotajlo 看到的更新基本一致。这似乎是模型调整和调整过去几个月令人失望的模型发布的混合体。

总的来说,Titotal 暂时持保留态度,直到 Eli 写更多关于它的信息,这似乎很棒,并且还提供了初步的想法。他主要看到了一些改进,但不相信他的核心反对意见得到了解决。

Titotal 质疑从 40% 的超指数曲线概率到最终出现此类曲线的 90% 概率的转变,尽管 Eli 指出,90% 包括投入到非常长的时间范围水平的大量概率,因此对答案的影响不大。 我理解为什么人们通常会担心重复计算,但我相信我现在更好地理解了这一点,他们没有重复计算。

结论

Titotal 总结说,你可以绘制很多非常独特的图表,这些图表“符合数据”,其中“数据”是 METR 的结果。是的,当然,我们知道这一点,但这不是练习的重点。 不,现实并不总是“遵循简洁的曲线”,但到目前为止,AI 的进展非常频繁地遵循了简洁的曲线,而且我们都在纳入比 METR 数据点多得多的信息。

如果你想查看 Titotal 对坏事为什么不好的总结,请点击此链接。我已经详细地解决了这些要点中的每一个。我认为有些指向了真正的问题,有些则不然。

我对正确的建模选择的总体看法是什么?

简单性非常有价值。正如谚语所说,使一切尽可能简单,但不要过于简单。 对于主要依赖于具有第一个模型的形状的东西,有很多话要说,但要注意在各个地方存在更多的不确定性,并且“超指数”效应具有不确定的幅度和起始点。 你可以通过几种不同的方式来表示这一点。 如果我要进行这种建模,我会比我有机会考虑更多的细节。

我可能会从最终计算中删除对未来瓶颈和步骤的详细考虑,更多地将它们用作直觉泵,就像他们目前计算 re-bench 时间然后将计算结果放入垃圾箱一样(参见:计划一文不值,计划至关重要。)

如果我要进行深入研究,我会担心我们是否正确地将这些不同的超指数进步论点结合在一起,例如 AI 研发反馈回路和未来改进的便利性,以及是否应将它们中的任何一个或两个都纳入预设趋势线,或者它们是否还有其他问题。

当然,最终输出只是你完整的现实模型的一部分。

在核心方面,我将重要的概念购买为重要的概念。 就像,如果我要用自己的话来说明所有这些:

  1. AI 的进展仍在继续,尽管比我们六个月前预期的要慢一些——此后的进展带来了很大的实际差异,很难想象回到甚至六个月前的模型,但适当的校准意味着仍然会令人失望。

  2. 除了扩展计算和数据之外,AI 本身也开始加速我们在 AI 中取得算法进展的速度。 目前这种效果是真实的但很小的,但我们正在跨越一些关键阈值,这些阈值开始产生很大的影响,并且这种效果可能不应被视为先前指数的一部分。

  3. 当你可以可靠地将任务分配给 AI 而无需持续的人工监督时,将任务分配给 AI 的好处开始显现,现在可以将这些任务视为不需要状态的原子操作。

  4. 如果 AI 可以将人类从这种研究和工作的有效循环中移除更长的时间,请小心(在许多层面上,当然在能力和算法进展方面)。

  5. 过去可以可靠地完成所谓的上下文原子组件的某个点,获得鲁棒性并弥补差距以更可靠地执行此操作开始变得更容易而不是更难,相对于标准指数曲线。

  6. 这很容易“一直走到”SC(然后快速到完整的 ASI),尽管我们不知道它是否会这样做。 这是另一个不确定点,还要注意,AI 2027 在很大程度上涉及等待各种物理开发步骤。

  7. 因此,在不对所有这些的节奏做出任何声明的情况下(我的猜测是它比他们想象的要慢,而且高度不确定),基线情景看起来很像 AI 2027,但在其他情景中也存在大量的概率质量。

  8. 然后必须问,当你得到这个“超人程序员”或以其他方式获得各种类型的 ASI 类事物后会发生什么。

所有这些加起来,我同意 Eli 的观点,即这里提出的任何批评都没有对我和最终或根本的发现提出挑战,只有价格。 价格当然是我们要在这里讨论的内容,因此即使在相对狭窄的范围内,价格也具有很高的价值(由于某些原因,2028 年与 2029 年截然不同,而 2035 年与此截然不同,依此类推)。

我知道所有这些都不是那种让你登上月球的精度。

也许是最重要的分歧

对这一切的解释就在那里:这是一位物理学家,以物理模型的标准来衡量 AI 时间表的预测。 好吧,是的,你不会高兴的。 如果你尝试用它登上月球,你几乎肯定会错过月球,就像如果你尝试在超级智能上使用当前的对齐技术一样,你几乎肯定会错过然后你会死亡。

AI 2027 的一位作者在最近一篇文章的评论中 嘲笑我说“你可能不喜欢它,但这就是 AI 预测的最佳表现”。

好吧,我不喜欢它,如果这真的是“最佳预测”,那么也许不应该认真对待预测。

也许是因为我是一名物理学家,而不是一名理性主义者。 在我的世界里,在根据预测做出决策之前,你通常希望模型具有强大的概念依据或对现有数据的经验验证:这两种情况都失败了。

是的,在物理学的世界里,事情的运作方式非常不同,我们有更准确和更好的模型。 如果你想在任何涉及人类互动的预测中获得物理级别的准确性,好吧,对不起,祝你好运。 并且大概每个人都同意你不能在这里拥有物理质量的模型,并且没有人声称拥有一个? 那么问题出在哪里?

问题是,基于像这样的建模尝试做出决策,是否比基于“我编造的”或根本没有概率和预测并感受该死的东西更好。

我最反对的是人们认真对待劣质玩具模型并根据它们做出生活决策,正如我在 AI 2027 中看到的那样。

……

我不会提出替代模型。 如果我试图解读 AI 未来的茶叶,它可能也会非常不稳定。 我对一些事情充满信心,例如仅软件奇点不起作用,并且近期不会有金刚石细菌。 但这些信念很难转化为精确的年度预测,而且我认为这样做只会巩固过度自信,并在现实变得比你想象的还要奇怪时让人们措手不及。

为什么这个人确信仅软件的奇点不起作用? 这篇文章没有说。 我假设你必须阅读他们的 substack,它就在那里

这里的预测是“精确的”,因为它有一个中位数,而且我们已经告知人们该中位数。 它不是“精确的”,因为它在特定的中位数上放置了大量的概率质量,甚至作为一个完整的年份,甚至在该估计不会因更多工作或更好数据而改变的意义上。 它是精确的,因为,是的,贝叶斯规则是一回事,你必须有一个概率分布,并且分享它比不分享它更有用。

我确实发现 AI 2027 的论点适度地更新了我,使其更倾向于更快的结果分配。 我发现 2027 年是 SC 发生的完全合理的时间,尽管我的中位数会更长。

你不能在信息达到某个(高于此)鲁棒性阈值之前“不要根据生活决策”做出决定。 或者我的意思是你可以,但情况不会很好。

总而言之,我再次感谢 Titotal 对本次评论的出色内容,并希望它能以更好的整体框架出现。

  • 原文链接: thezvi.substack.com/p/an...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
thezvi
thezvi
江湖只有他的大名,没有他的介绍。