2026:这就是通用人工智能

  • gradypb
  • 发布于 1天前
  • 阅读 76

文章讨论了通用人工智能(AGI)的实现,作者认为AGI的核心在于“解决问题的能力”,并指出编码代理是AGI的早期体现。文章还预测,随着长程代理的发展,AGI将在未来几年内对各行各业产生深远影响,尤其是在医学、法律、网络安全等领域。

Image

2026: 这是 AGI

作者:Pat Grady 和 Sonya Huang

多年前,一些领先的研究人员告诉我们,他们的目标是 AGI。为了听到一个连贯的定义,我们天真地问“你如何定义 AGI?”。他们停顿了一下,试探性地互相看了一眼,然后提出了后来成为 AI 领域某种口头禅的东西:“嗯,我们每个人都有自己的定义,但当我们看到它时就会知道它。”

这个小插曲代表了我们对 AGI 具体定义的追求。事实证明,它难以捉摸。

虽然定义难以捉摸,但现实并非如此。AGI 就在这里,现在。编码代理是第一个例子。还有更多的正在路上。

长程代理在功能上就是 AGI,2026 年将是它们的一年。

幸福地不受细节的束缚

在我们进一步讨论之前,值得承认的是,我们没有提出 AGI 技术定义的道德权威。

我们是投资者。我们研究市场、创始人以及两者的碰撞:企业。

鉴于此,我们的是一个功能定义,而不是一个技术定义。新的技术能力引出了 Don Valentine 的问题:那又怎样?

答案在于现实世界的影响。

AGI 的功能定义

AGI 是解决问题的能力。就是这样。*

  • 我们感谢这样一个不精确的定义不会解决任何哲学辩论。务实地说,如果你想完成某件事,你想要什么?一个可以解决问题的 AI。它如何发生并不像它发生的事实那么重要。

一个可以解决问题的人类有一些基本的知识,能够根据这些知识进行推理,并且能够通过迭代找到答案。

一个可以解决问题的 AI 有一些基本的知识(预训练),能够根据这些知识进行推理(推理时计算),并且能够通过迭代找到答案(长程代理)。

第一个要素(知识/预训练)是 2022 年最初 ChatGPT 时刻的推动力。第二个要素(推理/推理时计算)随着 2024 年底 o1 的发布而出现。第三个要素(迭代/长程代理)在最近几周随着 Claude Code 和其他编码代理跨越了能力门槛而出现。

一般来说,聪明的人可以一次自主工作几个小时,犯错并纠正错误,并在没有被告知的情况下弄清楚下一步该做什么。一般来说,聪明的代理可以做同样的事情。这是新的。

解决问题意味着什么?

一位创始人向他的代理发送消息:“我需要一位开发者关系主管。一位技术足够好,能够赢得资深工程师尊重的,但实际上喜欢在 Twitter 上的人。我们向平台团队销售产品。去吧。”

代理从显而易见的事情开始:在 LinkedIn 上搜索优秀的开发者优先公司(Datadog、Temporal、Langchain)的“开发者倡导者”和“DevRel”。它找到了数百个个人资料。但是职位名称并不能揭示谁真正擅长此道。

它将重点转移到凭证之上。它在 YouTube 上搜索会议演讲。它找到了 50 多位演讲者,然后筛选出那些演讲具有强大参与度的演讲者。

它将这些演讲者与 Twitter 进行交叉引用。一半的人拥有不活跃的帐户,或者只是转发其雇主的博客文章。这不是我们想要的。但有十几个人拥有真正的追随者——他们发表真实的观点,回复他人,并获得开发人员的参与。并且他们的帖子很有品味。

代理进一步缩小范围。它检查了过去三个月中谁的帖子频率较低。活动减少有时表示与当前角色脱节。浮出水面三个名字。

它研究了这三个人。一个刚刚宣布了一个新角色——太晚了。一个是刚刚筹集资金的公司的创始人——不会离开。第三个是一家 D 轮公司的资深 DevRel,该公司刚刚在营销部门进行了裁员。她的上一次演讲是关于初创公司目标的确切平台工程领域。她有 1.4 万 Twitter 粉丝,并且发布的 meme 吸引了实际工程师的参与。她已经两个月没有更新她的 LinkedIn 了。

该代理起草了一封电子邮件,确认她最近的演讲,与初创公司的 ICP 重叠,以及关于较小团队提供的创作自由的具体说明。它建议进行一次随意的对话,而不是推销。

总时间:31 分钟。创始人有一个人的候选名单,而不是发布在招聘网站上的 JD。

这就是解决问题的意义。在不明确的情况下导航以完成目标——形成假设、测试它们、遇到死胡同并进行转换,直到有突破。代理没有遵循脚本。它运行了一个伟大的招聘人员在他们脑海中运行的相同循环,只是它不知疲倦地在 31 分钟内完成,而没有被告知如何做。

需要明确的是:代理仍然会失败。它们会产生幻觉,失去上下文,有时会自信地朝着完全错误的方向前进。但轨迹是明确的,失败越来越可以修复。

我们是如何走到这一步的?从推理模型到长程代理

在去年的文章中,我们写道推理模型是 AI 最重要的新前沿。长程代理通过允许模型采取行动并随着时间的推移进行迭代来进一步推动这种范式。

诱导模型思考更长时间并非易事。基本推理模型可以思考几秒钟或几分钟。

两种不同的技术方法似乎都在有效且良好地扩展:强化学习和代理工具。前一种方法通过在训练过程中不断地进行调整和调整,教会模型内在的保持更长时间的专注。后一种方法围绕模型的已知局限性(存储器切换、压缩等)设计特定的支架。

扩展强化学习是研究实验室的领域。他们在这方面取得了卓越的进展,从多代理系统到可靠的工具使用。

设计出色的代理工具是应用层的领域。当今市场上一些最受欢迎的产品以其经过特殊设计的代理工具而闻名:Manus、Claude Code、Factory 的 Droids 等。

如果要押注一条指数曲线,那就是长程代理的性能。METR 一直在精心跟踪 AI 完成长程任务的能力。进步的速度呈指数级增长,大约每 7 个月翻一番。如果我们追踪指数,代理应该能够在 2028 年可靠地完成需要人类专家一整天才能完成的任务,在 2034 年可靠地完成需要一整年才能完成的任务,在 2037 年可靠地完成需要一百年才能完成的任务。

那又怎样?

很快你就可以雇佣一个代理了。这是 AGI 的一个试金石(h/t: Sarah Guo)。

你今天可以“雇佣”GPT-5.2 或 Claude 或 Grok 或 Gemini。更多例子正在路上:

  • 医学:OpenEvidence 的 Deep Consult 充当专家

  • 法律:Harvey 的代理充当助理

  • 网络安全:XBOW 充当渗透测试员

  • DevOps:Traversal 的代理充当 SRE

  • GTM:Day AI 充当 BDR、SE 和 Rev Ops 领导者

  • 招聘:Juicebox 充当招聘人员

  • 数学:Harmonic 的 Aristotle 充当数学家

  • 半导体设计:Ricursive 的代理充当芯片设计师

  • AI 研究员:GPT-5.2 和 Claude 充当 AI 研究员

从说客到实干家:对创始人的意义

这对创始人来说具有深远的意义。

2023 年和 2024 年的 AI 应用程序是说客。有些是非常复杂的对话者!但它们的影响是有限的。

2026 年和 2027 年的 AI 应用程序将是实干家。它们会感觉像同事。使用频率将从每天几次变为全天、每天,并且多个实例并行运行。用户不会零星地节省几个小时——他们将从作为一名 IC 工作转变为管理一个代理团队。

还记得所有关于出售工作的讨论吗?现在这是可能的。

你能完成什么工作?长程代理的能力与模型的单次前向传递截然不同。长程代理在你的领域解锁了哪些新的能力?哪些任务需要持久性,而持续的注意力是瓶颈?

你将如何将这项工作产品化?随着工作的 UI 从聊天机器人发展到代理委托,你的应用程序界面将如何在你的领域中发展?

你能可靠地完成这项工作吗?你是否痴迷于改进你的代理工具?你是否有强大的反馈循环?

你如何才能出售这项工作?你能否对价值和结果进行定价和打包?

准备好了!

现在是时候驾驭长程代理的指数级增长了。

今天,你的代理可能可以可靠地工作约 30 分钟。但它们很快就能完成一天的工作,并且最终能完成一个世纪的工作。

当你的计划以世纪为单位时,你能实现什么?一个世纪是 20 万次没有人交叉引用的临床试验。一个世纪是最终挖掘出信号的每个客户支持票证。一个世纪是对整个美国税法进行重构以使其具有连贯性。

你的路线图中雄心勃勃的版本刚刚成为现实的版本。

发布于 2026 年 1 月 14 日

感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅了这篇文章的草稿。

  • 原文链接: x.com/gradypb/status/201...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
gradypb
gradypb
江湖只有他的大名,没有他的介绍。