EigenAI 通过控制 GPU 堆栈的每一层,实现了在生产 GPU 上 bit 级别的确定性推理,在 10,000 次测试运行中实现了 100% 的可重复性,性能开销低于 2%。通过 EigenAI,每一个AI的推理都可以重放和审计,如果出现问题也有经济强制手段。

确定性推理已至:EigenAI 如何使每个 AI 输出都可验证
这不是一个 bug。这就是现代 LLM 的工作方式。浮点数的非结合性、内核调度、可变批处理。相同的模型,相同的输入,不同的输出。对于聊天机器人来说,没人会在意。对于管理实际资金或提出医疗建议的自主 AI 智能体呢?它会破坏一切。
你无法验证你无法重现的东西。
我们过去一年都在解决这个问题,并且我们正在发布 EigenAI 白皮书,其中包含完整的技术设计。EigenAI 在生产 GPU 上实现了位精确的确定性推理:在 10,000 次测试运行中实现了 100% 的可重复性,性能开销低于 2%。每次推理都可以重放,可以审计。如果出现问题,可以通过经济手段来强制执行。
EigenAI 今天已在主网上线。
向任何机器学习工程师询问可重复性,你都会得到一个心照不宣的苦笑。PyTorch 有一个 torch.use_deterministic_algorithms() 标志。它有帮助,但不能解决问题。
问题比框架设置更深。GPU 推理涉及数千个并行操作,其中执行顺序的微小变化会累积成不同的输出。NVIDIA 自己的文档也承认这一点:除非你显式禁用某些优化,否则 cuBLAS 可能会在不同的运行中产生不同的结果。
对于训练来说,这是可以管理的。你正在朝着一个损失函数进行优化;小的变化会被消除。对于高风险应用中的推理来说,这是灾难性的。
考虑一下当预测市场需要裁决基于图像的主观问题时会发生什么。Polymarket 臭名昭著的“泽连斯基是否穿西装?”市场交易额超过 2 亿美元,最终以任意决定的指控告终,因为去中心化预言机必须根据照片和新闻报道做出决定。目前的解决方法是人为治理和代币持有者投票。但随着市场规模扩大,人类无法裁决每一个争议。AI 法官变得不可避免。当 AI 法官在一次执行中对同一张图片说“是”,而在另一次执行中说“否”时,会发生什么?资金的流向会根据你得到的运行结果而有所不同。(祝你好运,向那些亏钱的人解释清楚。)
或者考虑一个 AI 交易代理使用你的资金进行交易。你怎么知道它运行的是你部署的代码?你怎么知道模型没有在执行过程中被调换?如果没有可重复性,你就是在信任你无法审计的基础设施。
这就是为什么自主 AI 智能体仍然是我们团队所说的“功能性玩具”。令人印象深刻的演示,但不是你可以信任任何重要事情的系统。
GPU 上的确定性是可实现的。它只需要控制堆栈的每一层。以下是它的实际样子:
硬件层。浮点行为因 GPU 代系而异。由于 FMA 和舍入方面的架构差异,A100 和 H100 对相同的操作产生不同的结果。EigenAI 强制执行单架构策略:操作员和验证者必须使用相同的 GPU SKU。我们的测试表明,在相同架构的运行中匹配率为 100%,跨架构的运行中匹配率为 0%。这不是我们可以通过工程手段解决的限制。这是物理学。
数学库。cuBLAS 和 cuDNN 默认使用原子操作和非结合累积。速度很快,但不确定。我们强制执行确定性配置标志,并在必要时用自定义实现替换供应商内核。我们的 GEMM 内核使用具有固定线程排序的 warp-synchronous reductions。没有浮点原子操作。结果:标准 cuBLAS 吞吐量的 95-98%。
推理引擎。我们以 llama.cpp 为基础,因为它具有小的、可审计的表面积。动态图融合等框架级优化会引入可变性,因此我们禁用了它们。解码使用具有规范迭代顺序的固定种子 PRNG。
结果:给定相同的输入(模型、提示、种子、解码策略),输出是一个纯函数。运行一千次。每次都得到相同的字节。这就是一个真正确定的 LLM 的样子。
我们在 10,000 次跨越概括、推理和代码生成的推理运行中验证了这一点。每个 SHA256 哈希都匹配。独立 H100 节点上的跨主机测试产生了相同的结果。在后台 GPU 工作负载引起调度抖动的情况下进行压力测试?仍然相同。
性能成本是多少?端到端 LLM 推理大约需要额外 1.8% 的延迟。这是可验证性的代价。我们认为这是值得的。
位精确的可重复性是基础。你在此基础上构建的东西更重要。
EigenAI 使用乐观的验证模型(如果你熟悉,可以从区块链 rollup 中借鉴)。操作员运行推理并将加密结果发布到 EigenDA,我们的数据可用性层。结果默认被接受,但在争议窗口期间可以被挑战。如果受到挑战,验证者委员会会在受信任的执行环境中重新执行推理。由于执行是确定性的,因此验证会简化为一个简单的问题:字节是否匹配?
不匹配会触发 slashing,即从绑定的 stake 中扣除的经济处罚。操作员会损失金钱。挑战者和验证者会得到报酬。
这创造了一个系统,其中:
稳态成本接近正常推理。验证仅在争议下运行。
单个诚实的验证者可以检测到欺诈。确定性意味着对“正确”的样子没有歧义。
经济激励措施一致。一旦挑战概率超过某个阈值,作弊就会产生负的预期价值。
通过阈值密钥管理来保护隐私。用户提示和输出保持加密;解密仅在验证期间在经过认证的 enclave 中进行。外部审计员可以验证哈希和签名,而无需访问明文。
转变:从“信任我”到“这是密码学证明”。
确定性推理 + 密码经济强制 = 我们称之为主权代理。
这些是可以在高风险环境中自主运行的 AI 系统,因为它们的执行是可验证的。不是“信任我”,而是“证明它”。
预测市场裁决者的裁决可以被任何人重现和审计。不再对模型是否被偏见或篡改存在争议。只需重新运行并检查即可。
交易代理使用实际资金执行策略,其中每个决策都被记录、可重现,并且如果出现任何问题,都可以受到质疑。
研究工具,其结果可以通过重新执行进行同行评审,而不仅仅是信任运行推理的人。
游戏 AI,玩家可以证明它没有被开发者操纵。(在你意识到有多少资金流入链上游戏之前,这听起来很小众。)
模式是一致的:无论 AI 做出重要的决策,可验证性都成为一项要求。不是锦上添花,而是一项要求。问题从“我可以信任这个模型吗?”转变为“我可以验证它做了什么吗?”
这篇文章从高层次介绍了架构。完整的白皮书深入探讨了如果你正在实际构建所需的内容:
正式的安全分析和威胁建模
确定性内核设计:warp-synchronous reductions、无原子累积、整个堆栈
具有阈值 KMS 和 TEE 认证的隐私架构
经济保证和 slashing 机制
跨 GPU 配置的经验验证
如果你正在构建自主代理,或者需要可验证执行的基础设施,那么这篇论文值得一读。阅读完整的白皮书 开始在 EigenAI 上构建
- 原文链接: x.com/eigencloud/status/...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!