EigenAI 确定性推理：如何让每一次 AI 输出都可验证

eigencloud
发布于 2026-01-24 13:55
阅读 483

EigenAI 通过控制 GPU 堆栈的每一层，实现了在生产 GPU 上 bit 级别的确定性推理，在 10,000 次测试运行中实现了 100% 的可重复性，性能开销低于 2%。通过 EigenAI，每一个AI的推理都可以重放和审计，如果出现问题也有经济强制手段。

![Image](https://img.learnblockchain.cn/2026/01/24/61804859_image.jpg)

确定性推理已至：EigenAI 如何使每个 AI 输出都可验证

这不是一个 bug。这就是现代 LLM 的工作方式。浮点数的非结合性、内核调度、可变批处理。相同的模型，相同的输入，不同的输出。对于聊天机器人来说，没人会在意。对于管理实际资金或提出医疗建议的自主 AI 智能体呢？它会破坏一切。

你无法验证你无法重现的东西。

我们过去一年都在解决这个问题，并且我们正在发布 [EigenAI 白皮书](https://docs.eigencloud.xyz/assets/files/EigenAI_Whitepaper-f1c89ddb88c1e28ccadff250523a273c.pdf)，其中包含完整的技术设计。EigenAI 在生产 GPU 上实现了位精确的确定性推理：在 10,000 次测试运行中实现了 100% 的可重复性，性能开销低于 2%。每次推理都可以重放，可以审计。如果出现问题，可以通过经济手段来强制执行。

EigenAI 今天已在主网上线。

##  无人讨论的非确定性问题

向任何机器学习工程师询问可重复性，你都会得到一个心照不宣的苦笑。PyTorch 有一个 torch.use_deterministic_algorithms() 标志。它有帮助，但不能解决问题。

问题比框架设置更深。GPU 推理涉及数千个并行操作，其中执行顺序的微小变化会累积成不同的输出。NVIDIA 自己的文档也承认这一点：除非你显式禁用某些优化，否则 cuBLAS 可能会在不同的运行中产生不同的结果。

对于训练来说，这是可以管理的。你正在朝着一个损失函数进行优化；小的变化会被消除。对于高风险应用中的推理来说，这是灾难性的。

考虑一下当预测市场需要裁决基于图像的主观问题时会发生什么。Polymarket 臭名昭著的“泽连斯基是否穿西装？”市场交易额超过 2 亿美元，最终以任意决定的指控告终，因为去中心化预言机必须根据照片和新闻报道做出决定。目前的解决方法是人为治理和代币持有者投票。但随着市场规模扩大，人类无法裁决每一个争议。AI 法官变得不可避免。当 AI 法官在一次执行中对同一张图片说“是”，而在另一次执行中说“否”时，会发生什么？资金的流向会根据你得到的运行结果而有所不同。（祝你好运，向那些亏钱的人解释清楚。）

或者考虑一个 AI 交易代理使用你的资金进行交易。你怎么知道它运行的是你部署的代码？你怎么知道模型没有在执行过程中被调换？如果没有可重复性，你就是在信任你无法审计的基础设施。

这就是为什么自主 AI 智能体仍然是我们团队所说的“功能性玩具”。令人印象深刻的演示，但不是你可以信任任何重要事情的系统。

##  EigenAI 如何实现位精确的可重复性

GPU 上的确定性是可实现的。它只需要控制堆栈的每一层。以下是它的实际样子：

硬件层。浮点行为因 GPU 代系而异。由于 FMA 和舍入方面的架构差异，A100 和 H100 对相同的操作产生不同的结果。EigenAI 强制执行单架构策略：操作员和验证者必须使用相同的 GPU SKU。我们的测试表明，在相同架构的运行中匹配率为 100%，跨架构的运行中匹配率为 0%。这不是我们可以通过工程手段解决的限制。这是物理学。

数学库。cuBLAS 和 cuDNN 默认使用原子操作和非结合累积。速度很快，但不确定。我们强制执行确定性配置标志，并在必要时用自定义实现替换供应商内核。我们的 GEMM 内核使用具有固定线程排序的 warp-synchronous reductions。没有浮点原子操作。结果：标准 cuBLAS 吞吐量的 95-98%。

推理引擎。我们以 llama.cpp 为基础，因为它具有小的、可审计的表面积。动态图融合等框架级优化会引入可变性，因此我们禁用了它们。解码使用具有规范迭代顺序的固定种子 PRNG。

结果：给定相同的输入（模型、提示、种子、解码策略），输出是一个纯函数。运行一千次。每次都得到相同的字节。这就是一个真正确定的 LLM 的样子。

我们在 10,000 次跨越概括、推理和代码生成的推理运行中验证了这一点。每个 SHA256 哈希都匹配。独立 H100 节点上的跨主机测试产生了相同的结果。在后台 GPU 工作负载引起调度抖动的情况下进行压力测试？仍然相同。

性能成本是多少？端到端 LLM 推理大约需要额外 1.8% 的延迟。这是可验证性的代价。我们认为这是值得的。

##  从确定性到可验证的 AI

位精确的可重复性是基础。你在此基础上构建的东西更重要。

EigenAI 使用乐观的验证模型（如果你熟悉，可以从区块链 rollup 中借鉴）。操作员运行推理并将加密结果发布到 EigenDA，我们的数据可用性层。结果默认被接受，但在争议窗口期间可以被挑战。如果受到挑战，验证者委员会会在受信任的执行环境中重新执行推理。由于执行是确定性的，因此验证会简化为一个简单的问题：字节是否匹配？

不匹配会触发 slashing，即从绑定的 stake 中扣除的经济处罚。操作员会损失金钱。挑战者和验证者会得到报酬。

这创造了一个系统，其中：

* 稳态成本接近正常推理。验证仅在争议下运行。

* 单个诚实的验证者可以检测到欺诈。确定性意味着对“正确”的样子没有歧义。

* 经济激励措施一致。一旦挑战概率超过某个阈值，作弊就会产生负的预期价值。

通过阈值密钥管理来保护隐私。用户提示和输出保持加密；解密仅在验证期间在经过认证的 enclave 中进行。外部审计员可以验证哈希和签名，而无需访问明文。

转变：从“信任我”到“这是密码学证明”。

##  主权代理的真实面貌

确定性推理 + 密码经济强制 = 我们称之为主权代理。

这些是可以在高风险环境中自主运行的 AI 系统，因为它们的执行是可验证的。不是“信任我”，而是“证明它”。

预测市场裁决者的裁决可以被任何人重现和审计。不再对模型是否被偏见或篡改存在争议。只需重新运行并检查即可。

交易代理使用实际资金执行策略，其中每个决策都被记录、可重现，并且如果出现任何问题，都可以受到质疑。

研究工具，其结果可以通过重新执行进行同行评审，而不仅仅是信任运行推理的人。

游戏 AI，玩家可以证明它没有被开发者操纵。（在你意识到有多少资金流入链上游戏之前，这听起来很小众。）

模式是一致的：无论 AI 做出重要的决策，可验证性都成为一项要求。不是锦上添花，而是一项要求。问题从“我可以信任这个模型吗？”转变为“我可以验证它做了什么吗？”

##  深入了解

这篇文章从高层次介绍了架构。完整的白皮书深入探讨了如果你正在实际构建所需的内容：

* 正式的安全分析和威胁建模

* 确定性内核设计：warp-synchronous reductions、无原子累积、整个堆栈

* 具有阈值 KMS 和 TEE 认证的隐私架构

* 经济保证和 slashing 机制

* 跨 GPU 配置的经验验证

如果你正在构建自主代理，或者需要可验证执行的基础设施，那么这篇论文值得一读。[阅读完整的白皮书](https://docs.eigencloud.xyz/assets/files/EigenAI_Whitepaper-f1c89ddb88c1e28ccadff250523a273c.pdf) [开始在 EigenAI 上构建](https://developers.eigencloud.xyz/?utm_source=eigencloud&utm_medium=website&utm_campaign=cta_eigenai&utm_content=index#products)

>- 原文链接： [x.com/eigencloud/status/...](https://x.com/eigencloud/status/2014822481744507381)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

确定性推理已至：EigenAI 如何使每个 AI 输出都可验证

你无法验证你无法重现的东西。

我们过去一年都在解决这个问题，并且我们正在发布 EigenAI 白皮书，其中包含完整的技术设计。EigenAI 在生产 GPU 上实现了位精确的确定性推理：在 10,000 次测试运行中实现了 100% 的可重复性，性能开销低于 2%。每次推理都可以重放，可以审计。如果出现问题，可以通过经济手段来强制执行。

EigenAI 今天已在主网上线。

无人讨论的非确定性问题

向任何机器学习工程师询问可重复性，你都会得到一个心照不宣的苦笑。PyTorch 有一个 torch.use_deterministic_algorithms() 标志。它有帮助，但不能解决问题。

对于训练来说，这是可以管理的。你正在朝着一个损失函数进行优化；小的变化会被消除。对于高风险应用中的推理来说，这是灾难性的。

这就是为什么自主 AI 智能体仍然是我们团队所说的“功能性玩具”。令人印象深刻的演示，但不是你可以信任任何重要事情的系统。

EigenAI 如何实现位精确的可重复性

GPU 上的确定性是可实现的。它只需要控制堆栈的每一层。以下是它的实际样子：

性能成本是多少？端到端 LLM 推理大约需要额外 1.8% 的延迟。这是可验证性的代价。我们认为这是值得的。

从确定性到可验证的 AI

位精确的可重复性是基础。你在此基础上构建的东西更重要。

不匹配会触发 slashing，即从绑定的 stake 中扣除的经济处罚。操作员会损失金钱。挑战者和验证者会得到报酬。

这创造了一个系统，其中：

稳态成本接近正常推理。验证仅在争议下运行。
单个诚实的验证者可以检测到欺诈。确定性意味着对“正确”的样子没有歧义。
经济激励措施一致。一旦挑战概率超过某个阈值，作弊就会产生负的预期价值。

转变：从“信任我”到“这是密码学证明”。

主权代理的真实面貌

确定性推理 + 密码经济强制 = 我们称之为主权代理。

这些是可以在高风险环境中自主运行的 AI 系统，因为它们的执行是可验证的。不是“信任我”，而是“证明它”。

预测市场裁决者的裁决可以被任何人重现和审计。不再对模型是否被偏见或篡改存在争议。只需重新运行并检查即可。

交易代理使用实际资金执行策略，其中每个决策都被记录、可重现，并且如果出现任何问题，都可以受到质疑。

研究工具，其结果可以通过重新执行进行同行评审，而不仅仅是信任运行推理的人。

游戏 AI，玩家可以证明它没有被开发者操纵。（在你意识到有多少资金流入链上游戏之前，这听起来很小众。）

深入了解

这篇文章从高层次介绍了架构。完整的白皮书深入探讨了如果你正在实际构建所需的内容：

正式的安全分析和威胁建模
确定性内核设计：warp-synchronous reductions、无原子累积、整个堆栈
具有阈值 KMS 和 TEE 认证的隐私架构
经济保证和 slashing 机制
跨 GPU 配置的经验验证

如果你正在构建自主代理，或者需要可验证执行的基础设施，那么这篇论文值得一读。阅读完整的白皮书开始在 EigenAI 上构建

原文链接： x.com/eigencloud/status/...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

EigenAI 确定性推理：如何让每一次 AI 输出都可验证

无人讨论的非确定性问题

EigenAI 如何实现位精确的可重复性

从确定性到可验证的 AI

主权代理的真实面貌

深入了解

0 条评论

文章目录

EigenAI 确定性推理： 如何让每一次 AI 输出都可验证

无人讨论的非确定性问题

EigenAI 如何实现位精确的可重复性

从确定性到可验证的 AI

主权代理的真实面貌

深入了解

0 条评论

文章目录

EigenAI 确定性推理：如何让每一次 AI 输出都可验证