Gradient：用于可扩展AI创新的开放智能堆栈

4pillars
发布于 2025-11-28 22:29
阅读 358

本文探讨了当前中心化AI系统在实现真正个性化服务方面的结构性限制，并介绍了Gradient如何通过开发开放智能平台来克服这些限制。Gradient旨在构建一个可扩展的开放AI智能引擎，通过将AI推理和训练所需的各个组件（数据、计算和通信）分解为去中心化的层，并将其集成到一个统一的堆栈中，实现更透明、可信和开放的AI生态系统。

### 核心要点

- 人工智能尚未实现真正的个性化或可扩展进展的原因在于一系列结构性约束——涵盖技术、数据、伦理和成本。克服这些限制需要一种根本性的新方法，区别于迄今为止定义人工智能发展的中心化架构。

- Gradient 正在重新设计人工智能推理和训练所需的每个组件——数据、计算和通信——作为去中心化层，并将它们集成到一个统一的堆栈中。通过这种方式，该团队正在构建一个可扩展的、开放的人工智能智能全栈，任何人都可以参与、验证和协作运营。

- Gradient 具有成为针对多元化社会的不同背景进行优化的可扩展开放智能基础设施的明确潜力。然而，要获得有意义的市场优势，需要在多个层面上协调参与者之间的激励机制，并在竞争激烈的环境中产生强大的网络效应，将无缝的模块级互操作性与真正的市场效率结合起来。

* * *

## 1. 导言

**“_我们如何才能始终如一地将我们的产品或服务的价值传递给更多的客户，并以一种能够为他们提供最大效用的方式？_”**

这是一个根本性的问题，每个企业，无论行业如何，都不可避免地必须面对。然而，价值本质上是相对的——它被每个人、文化和时代以不同的方式解读。每种产品或服务都是以明确的意图创造的，但这种意图很少能统一地传达给所有客户。有时，其背后的最初理念或目的甚至会在过程中被扭曲。

因此，全球公司在 **本地化** 方面投入巨资。为了在不同的受众中保持一致的质量和品牌体验，他们调整自己的服务以适应每个市场的文化和经济背景——缩小他们打算传递的价值与当地消费者感知的价值之间的差距。

然而，今天的趋势远远超出了区域本地化，进入了个性化定制的领域——在个人层面上进行定制。随着社会变得越来越复杂，互动变得越来越多样化，个人越来越寻求表达其独特的品味和身份认同，期望他们使用的服务能够反映出这些特征——独特、方便且高度个性化。在这个新时代，服务不再是按地区迎合客户；它们现在必须了解并响应每个人的背景、情感和行为模式。

人工智能、数据和通信技术的快速发展加速了这种转变。公司现在能够超越传统的行业和消费者宏观层面分析——他们可以利用尖端工具实时收集和解释大量数据流，从敏感的个人信息到行为洞察。

然而，在这一进展中，出现了一个重要的问题：今天的人工智能驱动的服务能否 **_真正_** 地为数百万用户提供完美的个性化体验？或者它们是否自相矛盾地破坏了个性，并缩小了选择的范围？事实是，主导当今的中心化人工智能学习管道在每个阶段都存在深刻的结构性限制——让人怀疑我们设想的个性化时代是否真的会从当前的人工智能创新浪潮中出现。

本文探讨了 **Gradient** 如何通过开发 **_开放智能平台_** 来克服这些结构性约束。Gradient 分解了代理人推理所需的后端交互，然后将它们重构并集成到模块化、去中心化的架构中——旨在为跨行业的可扩展代理生态系统构建基础引擎。

## 2. 对人工智能的新架构和治理范式的需求

在许多方面，很明显，今天的人工智能系统在向每个人提供完美的个性化服务方面面临着结构性限制。最简单地说，在现实中不可能实时地反映出每个人不断变化且上下文丰富的环境。人类的情感、偏好和行为模式在不断变化，并且在将这些信息传输到中心化服务器并将输出反馈给用户之间，不可避免地存在时间滞后和保真度损失。因此，现代人工智能只能提供所谓的 **“延迟个性化”** ——一种基于过去数据的近似值，而不是当下情况的反映。

除此之外，结构性约束存在于多个维度——数据、伦理、经济和治理。随着个性化的加深，人工智能不可避免地需要访问关于用户行为、位置、情感甚至健康状况的越来越多的敏感信息，这与隐私保护直接冲突。《通用数据保护条例》(GDPR) 和国家隐私法清楚地定义了技术公司可以多深入地了解个人。然而，只要技术需求的深度超过社会允许的范围，用户就永远无法体验到真正完整的个性化。

即使法规保障数据主权，或者用户自愿提供他们的数据，人工智能的内部运作仍然是不透明的。大多数模型都像黑盒子一样运作，具有数百万个相互依赖的参数，使用户不知道哪些数据或逻辑是特定输出的基础。这种不透明性从根本上削弱了信任。此外，模型不仅会重现嵌入在其复杂的训练数据集中的偏差，而且还经常依赖于本身源自先前个性化互动的数据——从而缩小了用户选择范围，并在可以被视为 **个性化悖论** 的现象中放大偏差。

从经济角度来看，构建完全个性化的解决方案效率也很低。将用户划分为更小的群体并为每个群体运营专用模型需要巨大的计算和基础设施资源。在这种负担下，人工智能行业越来越集中在少数几个大型平台上，而新的研究人员和公司的进入门槛继续上升。即使是现有的服务，也必须在“充分的个性化”和“运营效率”之间做出妥协。

当然，当今中心化人工智能模型的优势——它们的效率和通用性——仍然清晰可见。它们整合海量数据集并生成通用解决方案的能力在便利性和生产力方面继续具有巨大价值。因此，大型人工智能提供商可能会继续提出新的解决方案并扩展到不同的领域。

然而，为了让人工智能真正通过更深入的个性化来提高质量，为了让更多有创造力和多样化的模型崛起，并在各个行业开辟新的创新前沿，需要一种不同的方法——一种不同于当前中心化范式的方法。换句话说，为了让人工智能在整个社会中更自然地传播并产生更广泛的协同效应，我们必须开发能够更精细地捕捉 **个体背景** 的新形式的架构和治理。这不仅需要技术进步，还需要重新设计整个人工智能生命周期——从数据收集和学习到推理——以更透明、更值得信赖和更开放的方式构建。

## 3. 去中心化并征服！Gradient 开放智能堆栈方法

### 3.1 Gradient 入门

那么，我们如何重新设计传统的人工智能架构，以实现一个真正“可扩展人工智能”的世界？

从根本上讲，可扩展的人工智能取决于三个条件。首先，用户必须能够在可验证和值得信赖的网络中，有选择地将他们自己的数据应用到他们选择的模型中。其次，该模型必须有足够的计算资源来顺利地训练和运行。第三，为每个代理提供动力的通信管道必须在不依赖于单点故障的情况下运行，确保它可以托管而不会出现瓶颈或中断。换句话说，关键在于超越依赖于资本和基础设施的中心化系统，走向一个任何人都可以以灵活、分布式的方式构建、控制和运营自己的人工智能的环境。

Gradient 团队在一个方法中找到了答案，该方法将每个功能分解为针对分布式环境优化的协议和框架，然后将它们重新组合成一个单一的、连贯的堆栈。通过这样做，他们旨在保证数据主权，同时去中心化计算和通信层——最终构建一个可靠的、开放的人工智能智能引擎，任何人都可以参与、验证和协同操作。

![](https://img.learnblockchain.cn/2026/01/28/83011591_image.jpg)

正如我们稍后将研究的，指导 Gradient 重新设计去中心化堆栈的一个核心设计原则是统一和协调分布在世界各地的大量闲置计算资源和异构计算环境的能力。与所有任务都通过中心化服务器进行的传统架构相比，这种方法具有几个优点。

1. **更低的进入门槛：** 参与者可以直接从他们自己的环境中为模型训练做出贡献，从而显着降低了参与的门槛。

2. **增强的隐私和真正的数据所有权：** 因为数据保留在每个参与者的本地环境中，而不是上传到中心服务器，所以隐私变得更容易保护，并且用户可以构建他们完全拥有的更精细的、特定领域或区域的模型。

3. **更高的可靠性、效率和实时性能：** 通过协调大量分布式闲置资源的工作，该系统减少了任何单个服务器上的负载，从而实现了更稳定、无中断的通信环境，并提高了实时推理性能。

![](https://img.learnblockchain.cn/2026/01/28/90996962_image.jpg)

Gradient 团队由来自加州大学伯克利分校、卡内基梅隆大学和苏黎世联邦理工学院等顶尖机构的研究人员，以及谷歌、苹果和字节跳动的校友组成，他们通过 [八篇学术论文和研究成果](https://gradient.network/research) 一直在探索其设想的去中心化基础设施堆栈的组件——以及每一层可以提供的价值。

这种重建整个全栈架构的方法使 Gradient 能够保持每个功能的独立性和可扩展性，同时仍然允许灵活地引入和集成新模型。因此，整个管道实现了显着更高的运营效率和可靠性。

### 3.2 目前的层和服务

![](https://img.learnblockchain.cn/2026/01/28/19391156_image.jpg)

根据他们正在进行的研究，Gradient 团队迄今为止已发布了四个核心基础设施层和服务：

- **Lattica**：一种 P2P 通信协议，可在不同的环境中实现无缝连接

- **Parallax**：一种分布式人工智能框架，可连接异构 GPU 和 CPU，以并行化大规模 LLM 推理

- **Echo**：一种训练引擎，支持跨用户设备的强化学习

- **Gradient Cloud**：一个为各种人工智能模型提供推理端点的平台，构建在上述三层之上

**3.3.1 Lattica — 开放智能的通信与协调层**

首先，Lattica 可以理解为为日益模块化和目标驱动的人工智能环境设计的底层通信和协调层。它允许范围广泛的代理——每个代理都在其自己的上下文中运行——无缝地进行推理、协作和交互。

![](https://img.learnblockchain.cn/2026/01/28/44561645_image.jpg)

Lattica 将多个层——包括通信层、协议功能层和应用层——集成和抽象为一个统一的堆栈。它结合了 NAT 穿越 *、分布式哈希表 (DHT) **、分布式内容分发网络 (DCDN) 和基于 libp2p 流的 RPC 框架，从而确保了数据中心、GPU、浏览器节点和边缘设备之间的平滑、灵活的连接。

\*_NAT 穿越是一种技术，它允许位于单独内部网络中的两个设备之间建立直接的 P2P 连接，这两个网络通过网络地址转换 (NAT) 共享一个公共 IP 地址，否则出于安全原因，直接通信会受到限制。_

**_DHT 是一种去中心化系统，用于在多个计算机节点上存储和检索键值对，而无需依赖中心服务器。_

![](https://img.learnblockchain.cn/2026/01/28/25955777_image.jpg)

来源：Gradient \| 去中心化人工智能的四种场景

Lattica 的通信协调过程可以概括如下：

模型片段或数据块缓存在各个 (边缘) 节点上，这些节点的有效性会受到持续监控并传播到“可用性图”。然后，协调器会扫描此图，以匹配用于数据共享的最佳对等方，而 Gradient 的学习引擎会利用此反馈循环——实时改进对等方选择、负载平衡和路由策略。结果是一个不断提高其整体效率和稳定性的网络。

因此，每个节点都可以通过 P2P 连接——无需中心化服务器——交换数据，并在本地执行人工智能训练和推理，而无需考虑环境。这使得用户能够更有效地进行复杂的智能计算，例如协作强化学习或大规模分布式机器学习。

![](https://img.learnblockchain.cn/2026/01/28/18324195_image.jpg)

来源：[https://explorer.gradient.network/](https://explorer.gradient.network/)

为了展示 Lattica 的性能，该团队开展了几次活动——最值得注意的是，4 月份使用基于 Chrome 扩展的 Sentry 节点进行的分布式视频流实验。在此测试中，全球 160 多个地区的 800 多万个 Sentry 节点参与了测试。视频成功地进行了实时流式传输——不是来自中心化服务器，而是直接来自协调器通过 P2P 传输选择的附近 Sentry 节点。

展望未来，Lattica 旨在超越简单的内容传输，发展成为去中心化人工智能的核心通信底层——能够实时协调数据流，从模型参数路由到分布式推理和代理之间的通信。

**3.3.2 Parallax — 主权人工智能操作系统框架**

如果说 Lattica 充当网络层，统一不同的通信环境并实现节点之间的 P2P 连接，那么 Parallax 则充当构建在其之上的推理层。利用 Lattica，Parallax 允许用户组装完全自主、定制的集群，通过这些集群，可以高效、可靠地执行任何规模的人工智能模型训练和推理。

从根本上讲，为了最大限度地提高个性化人工智能服务的实用性、安全性和稳定性，托管该服务的实体必须能够直接控制和托管其自己的人工智能集群。然而，在实践中，这种理想往往面临一个困境。在单个本地机器上运行各种 LLM 会很快达到硬件限制，而将更大的模型卸载到云或全局 GPU 池意味着牺牲对执行环境的控制。此外，在这种分布式设置中，集群内异构元素——例如带宽差异和动态 GPU 可用性——通常会产生运营限制，使得高效调度极具挑战性。

为了解决这些问题，Parallax 采用了一种集成了多个基础环境的架构：[Lattica](https://github.com/GradientHQ/lattica) 提供的 P2P 通信网络、[SGLang](https://github.com/sgl-project/sglang) 驱动的 GPU 后端和 [MLX LM](https://github.com/ml-explore/mlx-lm) 驱动的 MAC 后端。这种统一设置实现了推理节点和集群形成的无缝协调——无论是在本地环境中，还是对于大规模模型，在共享 GPU 池中——不存在停机时间或依赖性问题。

![](https://img.learnblockchain.cn/2026/01/28/29661644_image.jpg)

Parallax 构建在基于群的分布式架构之上，将集群内的一组异构机器协调到一个单一的自适应网格中。它持续探索每个请求的最佳路由，并根据负载条件实时重新组织推理集群。

Parallax 的调度和推理操作跨越三个核心层：运行时、通信和工作器。

**调度**

Parallax 将模型分片为连续的层，然后使用 **动态编程 (DP)** 和 **注水算法** 来识别和分配群内的最佳主机 (例如，笔记本电脑、GPU)——同时考虑到可用性、计算性能和延迟。在整个过程中，它最大限度地减少管道深度以减少延迟，在必要时增加副本以提高吞吐量，并保持平衡，以便更快的设备不会被更慢的设备阻塞。

**后端与通信**

在其统一的后端层中，从 NVIDIA GPU 到 Apple Silicon 的异构工作器以针对其各个硬件优化的方式执行推理。所有节点都像一个协调的服务一样在协调下运行。每个请求都通过设备性能和 RTT (往返时间) 进行动态分析，然后自动通过最有效的路径进行路由——无论是单一主机、本地网络还是公共互联网。由于 Parallax 流式传输隐藏状态，而不是传输完整的数据集，因此所有中间数据和推理结果在依次遍历每个模型层时都保持安全和机密。

因此，Parallax 在高度分布式和异构环境中提供容 **错** 且一致的推理性能。它目前支持 40 多个开放模型，参数范围从 6 亿 (0.6B) 到万亿级专家混合 (MoE) 架构。*

![](https://img.learnblockchain.cn/2026/01/28/60178852_image.jpg)

来源：[Gradient Chatbot](https://chat.gradient.network/) \| \*\* 目前提供由 Parallax 驱动的分布式推理演示版本

\*_领先的专家混合 (MoE) 和 GLM 模型，以及 MiniMax M2、Kimi K2、[Z.ai](http://z.ai/)、LMSYS 的 SGLang 和阿里巴巴的 Qwen 等开源提供商，都已与 Parallax 集成。_

**3.3.3 Echo - 针对各种设备优化的分布式强化学习层**

人工智能学习可以大致分为两类。第一类是 **_预训练_**，它涉及观察人类行为或数据集并模仿它们 (例如，模仿学习)。第二类是 **_后训练_**，它依赖于试错——重复执行给定的场景，然后根据结果奖励或惩罚模型 (例如，强化学习 (RL)、知识蒸馏和迁移学习)。预训练擅长理解人类模式和处理大规模数据，这就是为什么它在推进 LLM 等基础模型方面发挥了关键作用。然而，为了实现更复杂和多样化的应用，未来的代理必须超越简单地重现正确答案或辅助决策；它们必须能够进行自主的、以解决方案为导向的推理，以独立解决问题。

话虽如此，现代后训练架构仍然面临着几个限制。大多数模型在同一个 GPU 集群中执行轨迹采样和策略优化 *。这种设置会导致多个问题：(1) rollouts **发生在单个模拟器集群中，限制了数据的多样性；(2) 模型面临过度拟合特定环境的风险；(3) 如果学习策略和用于 rollouts 的策略之间的时间间隔过大，梯度更新会变得不稳定；(4) 由于轨迹是在同一个集群中收集的，即使策略更新了，模型也可能继续在过时的数据上进行训练——导致策略反映延迟。为了缓解这些问题，最近的 RL 方法已开始将 rollout 集群与训练集群分离，引入基于缓冲区的架构，从而允许两个集群独立运行。

Gradient 的 Echo 是一个经过优化的层，可以将此架构扩展到世界各地的闲置设备。它旨在增强训练和推理动态，以便代理可以更有效地建模。Echo 将训练和推理过程分离到每个群中，从而使每个群都可以根据其指定的角色高效运行。通过同步协议，全球各地的设备相互连接，形成一个稳定且有机运行的庞大的 rollout 工作器网络。

\*_策略；确定代理在给定状态下应采取何种行动的策略或规则_

**_Rollout；通过在定义的时间段内执行策略来评估代理性能的过程_

![](https://img.learnblockchain.cn/2026/01/28/46556951_image.jpg)

首先，**_推理群_** 利用前面提到的 Parallax 框架，该框架允许各种硬件工作器——例如 NVIDIA GPU 和 Apple Silicon——根据各自的性能特征执行优化的 rollouts。同时，**_训练群_** 扩展了开源 [**Verl**](https://github.com/volcengine/verl) 堆栈 * 以优化数据中心级 GPU 环境 (例如 A100 和 H100 系统) 中的策略。

然而，在这种双重架构设计中，自然会出现 rollout 的 **_新鲜度_** 与策略优化的 **_同步性_** 之间的权衡。换句话说，挑战在于平衡推理结果中的偏差、准确性和计算效率。为了解决这个问题，Echo 层围绕 **_模型快照缓冲区_** 引入了两种同步机制，从而可以根据目的灵活地应用每种机制。

对于优先考虑精度和低偏差的代理——需要对受控的策略一致性进行微调——Echo 提出了一种顺序机制。此方法类似于传统的中心化方法：训练群充当核心，按需进行 API 调用以从推理群请求轨迹。收到请求后，每个推理群会根据最新的模型快照检查其本地权重版本；如果已过期，它会在执行 rollouts 之前进行相应的更新，并将生成的批次流式传输回调用方。

相比之下，异步机制会将 rollout 样本连续流式传输到 **_Rollout 缓冲区_**，并用版本标识符标记每个样本。训练群以预定义的时间间隔使用小批量形式的新权重更新模型快照缓冲区。在这里，训练和推理 **_同时_** 发生，从而最大限度地减少端到端延迟并最大限度地提高训练效率。

总之，Echo 的模块化架构通过以下方式显着改进了传统的强化学习方法：(1) 最大限度地提高了资源利用率，(2) 增强了推理管道的部署灵活性，以及 (3) 将硬件多样性与模型改进分离——从而缓解了瓶颈，并减少了单点故障导致的性能下降。

\*_Verl 是 ByteDance 的 Seed 团队开发的开源强化学习框架，支持 PPO 和 GRPO 等算法。_

![](https://img.learnblockchain.cn/2026/01/28/79606353_image.jpg)

来源：Gradient

根据 [**Gradient 的论文**](https://arxiv.org/pdf/2508.05387)，所提出的方法已针对传统的同地协作模型进行了基准测试。评估使用了四个 Qwen 系列基础模型：Qwen3-4B、Qwen2.5-7B、Qwen3-32B 和 Qwen3-30B-A3B-Thinking-2507。

VERL 框架 (基础)

- 配备 8 × A100 80GB GPU 的单台机器

Echo 框架

- 推理群

- 基于 **Parallax** 的分布式网络，由六个节点 (3 × RTX 5090 和 3 × Mac M4 Pro) 组成
- 训练群

- 具有 **4 × A100 GPU** 的单台机器

因此，Echo 层成功地在通用边缘硬件上分发了轨迹生成，同时实现了与同地协作基线 * 相当的收敛速度和最终奖励。

\*_目前，可以通过 [Hugging Face 集合](https://huggingface.co/GradientResearch/models) 公开获得四个测试模型。_

**3.3.4 Gradient Cloud — 统一所有功能的企业解决方案**

![](https://img.learnblockchain.cn/2026/01/28/73257811_image.jpg)

来源：Gradient Cloud

Gradient Cloud 是构建在前面介绍的三个去中心化堆栈——Lattica、Parallax 和 Echo——之上的多合一人力智能开发站。它提供了一个交互式游乐场，用户可以在其中灵活地调整领先的开源模型的推理端点和参数，并通过全球分布式硬件网络一键部署它们。

根据其 [路线图](https://gradient.network/blog/community-letter-roadmap)，Gradient 旨在不断推进其完全去中心化的堆栈——包括上述三个基础层——以实现超越各个行业中心化架构限制的性能和可扩展性。同时，通过像 Gradient Cloud 这样的产品，它致力于整合这些技术，促进多个代理之间的现实世界协作，并最终构建一个开放的生态系统，使在 Gradient 网络内产生的价值流回所有参与者，让他们能够分享集体利益。

## 4. Gradient 能否在人工智能市场中获得竞争优势？

### **4.1 与多元化社会保持一致**

今天，人工智能正在迅速发展，超出了简单的信息检索或文本生成的范围，转向解决复杂的问题，并在机器人、虚拟世界、工业自动化等专业领域执行自主任务。作为回应，用户和科技公司都不再满足于仅仅利用现有的人工智能工具——相反，他们越来越多地构建和组合针对他们自己环境优化的专用人工智能代理，探索更复杂和智能的方式将它们集成到他们的工作流程中。

然而，为了让人工智能技术真正扩展到更深入和更多样化的领域——在各个行业中开辟无数新的用例——结构和治理层面的开放性至关重要。任何人都应该能够安全地利用敏感数据，自由地构建模型，并访问他们需要的计算资源。与此同时，此过程中的每一步都必须确保透明和可验证的程序完整性，从而促进参与的真正民主化。只有在建立起这种信任基础设施后，开放智能生态系统的飞轮才能开始可持续地旋转。

在这种背景下，Gradient 的 **开放智能堆栈 (OIS)** 提供了一种可扩展的基础设施，可以构建和托管针对比任何中心化系统允许的更加多样化背景量身定制的推理驱动代理模型。此外，通过将这种基础设施实现为一个平台，OIS 为去中心化代理在各个行业和环境中连接和交互奠定了基础——使其有可能成为真正分布式智能网络的支柱。

### 4.2 协调不同参与者之间价值的挑战

然而，Gradient 中仍然存在一些未观察到的风险。首先是其不同参与者之间价值调整的问题。

Gradient 基于激励的去中心化结构——最初由区块链率先推出——从根本上说，是基于吸引广泛和自愿的贡献者集合，并通过奖励他们执行特定任务来运营的。换句话说，当激励存在时，供应自然会响应；而且通过供需之间的相互作用，再加上激励机制，就建立了价值流动的循环均衡。然而，为了使这种理想化的市场调整机制真正发挥作用，必须合理地计算每个贡献者在价值创造中所占的份额，并且相应的奖励必须达到集体接受的平衡。

也就是说，Gradient 将人工智能生态系统的学习、推理、数据和计算阶段集成到模块化架构中——追求任何人都可以访问的开放智能网络。反过来，这意味着每一层都托管着各种各样的参与者群体。参与者越多样化，调整其经济激励的复杂性就越大。

此外，Gradient 极有可能采用基于权益的治理模型来确保去中心化运营。然而，即使参与者之间达成共识，如果每个模块的验证标准或奖励系统都在不断变化，那么跨层的信任指标可能会出现分歧，并且整体稳定性可能会恶化。当激励定义不明确或奖励系统偏向某些实体时，存在特定层可能施加不成比例的影响或扭曲整体效率的风险。

因此，为了让 Gradient 发展成为真正开放的智能网络，**它必须设计一个经过微调且具有弹性的激励系统**——该系统可以实现每个模块的经济动机互补运行，同时不断推动质量的长期改进。

### 4.3 跨不同细分市场的竞争

对于 Gradient 来说，另一个不可忽视的风险在于它面临的竞争日益激烈的环境。市场上已经挤满了成熟的 Web2 参与者，例如 OpenAI、Anthropic、Google 和 Meta——这些公司尽管存在结构性限制，但仍继续通过巨大的资本和数据优势来确保在模型性能和参数优化方面的绝对统治地位。与此同时，Gensyn、Bittensor、[IO.NET](http://io.net/) 和 Aethir 等 Web3 原生项目正在通过分别去中心化人工智能堆栈的特定层 (数据、计算和模型训练) 来迅速扩展其生态系统。当然，Gradient 在这个环境中占据着独特的地位，作为一个 **集成智能引擎**，但自相矛盾的是，这种集成意味着一个结构性限制：很难在任何单一垂直领域实现完全的规模经济。

为了巩固其在如此激烈竞争中的地位，Gradient 必须超越仅仅倡导去中心化。它需要创建一种将模块之间的互操作性与市场效率融合在一起的新型网络效应。换句话说，虽然像 [IO.NET](http://io.net/) 或 Aethir 这样的项目专注于连接孤立的闲置资源，但 Gradient 应该加强其作为 **智能协调层** 的作用——能够无缝集成和协调这些资源到一个统一的推理管道中。当这种方向得到牢固确立时，Gradient 就可以发展成为一种混合智能基础设施，它吸收了 Web2 的资本效率和 Web3 的分布式开放性。

>- 原文链接： [4pillars.io/en/articles/...](https://4pillars.io/en/articles/gradient-an-open-intelligence-stack-for-scalable-ai-innovation)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

核心要点

人工智能尚未实现真正的个性化或可扩展进展的原因在于一系列结构性约束——涵盖技术、数据、伦理和成本。克服这些限制需要一种根本性的新方法，区别于迄今为止定义人工智能发展的中心化架构。
Gradient 正在重新设计人工智能推理和训练所需的每个组件——数据、计算和通信——作为去中心化层，并将它们集成到一个统一的堆栈中。通过这种方式，该团队正在构建一个可扩展的、开放的人工智能智能全栈，任何人都可以参与、验证和协作运营。
Gradient 具有成为针对多元化社会的不同背景进行优化的可扩展开放智能基础设施的明确潜力。然而，要获得有意义的市场优势，需要在多个层面上协调参与者之间的激励机制，并在竞争激烈的环境中产生强大的网络效应，将无缝的模块级互操作性与真正的市场效率结合起来。
- *

1. 导言

“我们如何才能始终如一地将我们的产品或服务的价值传递给更多的客户，并以一种能够为他们提供最大效用的方式？”

因此，全球公司在 本地化 方面投入巨资。为了在不同的受众中保持一致的质量和品牌体验，他们调整自己的服务以适应每个市场的文化和经济背景——缩小他们打算传递的价值与当地消费者感知的价值之间的差距。

然而，在这一进展中，出现了一个重要的问题：今天的人工智能驱动的服务能否真正地为数百万用户提供完美的个性化体验？或者它们是否自相矛盾地破坏了个性，并缩小了选择的范围？事实是，主导当今的中心化人工智能学习管道在每个阶段都存在深刻的结构性限制——让人怀疑我们设想的个性化时代是否真的会从当前的人工智能创新浪潮中出现。

本文探讨了 Gradient 如何通过开发 开放智能平台 来克服这些结构性约束。Gradient 分解了代理人推理所需的后端交互，然后将它们重构并集成到模块化、去中心化的架构中——旨在为跨行业的可扩展代理生态系统构建基础引擎。

2. 对人工智能的新架构和治理范式的需求

在许多方面，很明显，今天的人工智能系统在向每个人提供完美的个性化服务方面面临着结构性限制。最简单地说，在现实中不可能实时地反映出每个人不断变化且上下文丰富的环境。人类的情感、偏好和行为模式在不断变化，并且在将这些信息传输到中心化服务器并将输出反馈给用户之间，不可避免地存在时间滞后和保真度损失。因此，现代人工智能只能提供所谓的 “延迟个性化” ——一种基于过去数据的近似值，而不是当下情况的反映。

然而，为了让人工智能真正通过更深入的个性化来提高质量，为了让更多有创造力和多样化的模型崛起，并在各个行业开辟新的创新前沿，需要一种不同的方法——一种不同于当前中心化范式的方法。换句话说，为了让人工智能在整个社会中更自然地传播并产生更广泛的协同效应，我们必须开发能够更精细地捕捉 个体背景 的新形式的架构和治理。这不仅需要技术进步，还需要重新设计整个人工智能生命周期——从数据收集和学习到推理——以更透明、更值得信赖和更开放的方式构建。

3. 去中心化并征服！Gradient 开放智能堆栈方法

3.1 Gradient 入门

那么，我们如何重新设计传统的人工智能架构，以实现一个真正“可扩展人工智能”的世界？

更低的进入门槛： 参与者可以直接从他们自己的环境中为模型训练做出贡献，从而显着降低了参与的门槛。
增强的隐私和真正的数据所有权： 因为数据保留在每个参与者的本地环境中，而不是上传到中心服务器，所以隐私变得更容易保护，并且用户可以构建他们完全拥有的更精细的、特定领域或区域的模型。
更高的可靠性、效率和实时性能： 通过协调大量分布式闲置资源的工作，该系统减少了任何单个服务器上的负载，从而实现了更稳定、无中断的通信环境，并提高了实时推理性能。

Gradient 团队由来自加州大学伯克利分校、卡内基梅隆大学和苏黎世联邦理工学院等顶尖机构的研究人员，以及谷歌、苹果和字节跳动的校友组成，他们通过八篇学术论文和研究成果一直在探索其设想的去中心化基础设施堆栈的组件——以及每一层可以提供的价值。

3.2 目前的层和服务

根据他们正在进行的研究，Gradient 团队迄今为止已发布了四个核心基础设施层和服务：

Lattica：一种 P2P 通信协议，可在不同的环境中实现无缝连接
Parallax：一种分布式人工智能框架，可连接异构 GPU 和 CPU，以并行化大规模 LLM 推理
Echo：一种训练引擎，支持跨用户设备的强化学习
Gradient Cloud：一个为各种人工智能模型提供推理端点的平台，构建在上述三层之上

3.3.1 Lattica — 开放智能的通信与协调层

*NAT 穿越是一种技术，它允许位于单独内部网络中的两个设备之间建立直接的 P2P 连接，这两个网络通过网络地址转换 (NAT) 共享一个公共 IP 地址，否则出于安全原因，直接通信会受到限制。

**DHT 是一种去中心化系统，用于在多个计算机节点上存储和检索键值对，而无需依赖中心服务器。

来源：Gradient | 去中心化人工智能的四种场景

Lattica 的通信协调过程可以概括如下：

来源：https://explorer.gradient.network/

3.3.2 Parallax — 主权人工智能操作系统框架

为了解决这些问题，Parallax 采用了一种集成了多个基础环境的架构：Lattica 提供的 P2P 通信网络、SGLang 驱动的 GPU 后端和 MLX LM 驱动的 MAC 后端。这种统一设置实现了推理节点和集群形成的无缝协调——无论是在本地环境中，还是对于大规模模型，在共享 GPU 池中——不存在停机时间或依赖性问题。

Parallax 的调度和推理操作跨越三个核心层：运行时、通信和工作器。

调度

Parallax 将模型分片为连续的层，然后使用 动态编程 (DP) 和 注水算法 来识别和分配群内的最佳主机 (例如，笔记本电脑、GPU)——同时考虑到可用性、计算性能和延迟。在整个过程中，它最大限度地减少管道深度以减少延迟，在必要时增加副本以提高吞吐量，并保持平衡，以便更快的设备不会被更慢的设备阻塞。

后端与通信

因此，Parallax 在高度分布式和异构环境中提供容错且一致的推理性能。它目前支持 40 多个开放模型，参数范围从 6 亿 (0.6B) 到万亿级专家混合 (MoE) 架构。*

来源：Gradient Chatbot | ** 目前提供由 Parallax 驱动的分布式推理演示版本

*领先的专家混合 (MoE) 和 GLM 模型，以及 MiniMax M2、Kimi K2、Z.ai、LMSYS 的 SGLang 和阿里巴巴的 Qwen 等开源提供商，都已与 Parallax 集成。

3.3.3 Echo - 针对各种设备优化的分布式强化学习层

人工智能学习可以大致分为两类。第一类是 预训练，它涉及观察人类行为或数据集并模仿它们 (例如，模仿学习)。第二类是 后训练，它依赖于试错——重复执行给定的场景，然后根据结果奖励或惩罚模型 (例如，强化学习 (RL)、知识蒸馏和迁移学习)。预训练擅长理解人类模式和处理大规模数据，这就是为什么它在推进 LLM 等基础模型方面发挥了关键作用。然而，为了实现更复杂和多样化的应用，未来的代理必须超越简单地重现正确答案或辅助决策；它们必须能够进行自主的、以解决方案为导向的推理，以独立解决问题。

*策略；确定代理在给定状态下应采取何种行动的策略或规则

**Rollout；通过在定义的时间段内执行策略来评估代理性能的过程

首先，推理群 利用前面提到的 Parallax 框架，该框架允许各种硬件工作器——例如 NVIDIA GPU 和 Apple Silicon——根据各自的性能特征执行优化的 rollouts。同时，训练群 扩展了开源 Verl 堆栈 * 以优化数据中心级 GPU 环境 (例如 A100 和 H100 系统) 中的策略。

然而，在这种双重架构设计中，自然会出现 rollout 的 新鲜度 与策略优化的 同步性 之间的权衡。换句话说，挑战在于平衡推理结果中的偏差、准确性和计算效率。为了解决这个问题，Echo 层围绕 模型快照缓冲区 引入了两种同步机制，从而可以根据目的灵活地应用每种机制。

相比之下，异步机制会将 rollout 样本连续流式传输到 Rollout 缓冲区，并用版本标识符标记每个样本。训练群以预定义的时间间隔使用小批量形式的新权重更新模型快照缓冲区。在这里，训练和推理同时发生，从而最大限度地减少端到端延迟并最大限度地提高训练效率。

*Verl 是 ByteDance 的 Seed 团队开发的开源强化学习框架，支持 PPO 和 GRPO 等算法。

来源：Gradient

根据 Gradient 的论文，所提出的方法已针对传统的同地协作模型进行了基准测试。评估使用了四个 Qwen 系列基础模型：Qwen3-4B、Qwen2.5-7B、Qwen3-32B 和 Qwen3-30B-A3B-Thinking-2507。

VERL 框架 (基础)

配备 8 × A100 80GB GPU 的单台机器

Echo 框架

推理群
- 基于 Parallax 的分布式网络，由六个节点 (3 × RTX 5090 和 3 × Mac M4 Pro) 组成
训练群
- 具有 4 × A100 GPU 的单台机器

因此，Echo 层成功地在通用边缘硬件上分发了轨迹生成，同时实现了与同地协作基线 * 相当的收敛速度和最终奖励。

*目前，可以通过 Hugging Face 集合公开获得四个测试模型。

3.3.4 Gradient Cloud — 统一所有功能的企业解决方案

来源：Gradient Cloud

根据其路线图，Gradient 旨在不断推进其完全去中心化的堆栈——包括上述三个基础层——以实现超越各个行业中心化架构限制的性能和可扩展性。同时，通过像 Gradient Cloud 这样的产品，它致力于整合这些技术，促进多个代理之间的现实世界协作，并最终构建一个开放的生态系统，使在 Gradient 网络内产生的价值流回所有参与者，让他们能够分享集体利益。

4. Gradient 能否在人工智能市场中获得竞争优势？

4.1 与多元化社会保持一致

在这种背景下，Gradient 的 开放智能堆栈 (OIS) 提供了一种可扩展的基础设施，可以构建和托管针对比任何中心化系统允许的更加多样化背景量身定制的推理驱动代理模型。此外，通过将这种基础设施实现为一个平台，OIS 为去中心化代理在各个行业和环境中连接和交互奠定了基础——使其有可能成为真正分布式智能网络的支柱。

4.2 协调不同参与者之间价值的挑战

然而，Gradient 中仍然存在一些未观察到的风险。首先是其不同参与者之间价值调整的问题。

因此，为了让 Gradient 发展成为真正开放的智能网络，它必须设计一个经过微调且具有弹性的激励系统——该系统可以实现每个模块的经济动机互补运行，同时不断推动质量的长期改进。

4.3 跨不同细分市场的竞争

对于 Gradient 来说，另一个不可忽视的风险在于它面临的竞争日益激烈的环境。市场上已经挤满了成熟的 Web2 参与者，例如 OpenAI、Anthropic、Google 和 Meta——这些公司尽管存在结构性限制，但仍继续通过巨大的资本和数据优势来确保在模型性能和参数优化方面的绝对统治地位。与此同时，Gensyn、Bittensor、IO.NET 和 Aethir 等 Web3 原生项目正在通过分别去中心化人工智能堆栈的特定层 (数据、计算和模型训练) 来迅速扩展其生态系统。当然，Gradient 在这个环境中占据着独特的地位，作为一个 集成智能引擎，但自相矛盾的是，这种集成意味着一个结构性限制：很难在任何单一垂直领域实现完全的规模经济。

为了巩固其在如此激烈竞争中的地位，Gradient 必须超越仅仅倡导去中心化。它需要创建一种将模块之间的互操作性与市场效率融合在一起的新型网络效应。换句话说，虽然像 IO.NET 或 Aethir 这样的项目专注于连接孤立的闲置资源，但 Gradient 应该加强其作为 智能协调层 的作用——能够无缝集成和协调这些资源到一个统一的推理管道中。当这种方向得到牢固确立时，Gradient 就可以发展成为一种混合智能基础设施，它吸收了 Web2 的资本效率和 Web3 的分布式开放性。

原文链接： 4pillars.io/en/articles/...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。