深度神经菜单拍卖：一种基于AI驱动机制的区块链费用市场方案

thogiti
发布于 2025-07-20 08:36
阅读 1677

本文提出了一种基于AI驱动机制设计的区块链交易费用解决方案：深度神经菜单拍卖。该方案通过Mechanism Network动态生成gas和price的菜单选项，用户选择效用最大化的选项，实现激励兼容性和个体理性。Buyer Network模拟用户选择，通过端到端训练优化收益和降低费用差异，并通过强化学习适应需求冲击，旨在创建更高效、稳定和用户友好的费用市场。

## 摘要
长期以来，区块链交易手续费市场一直受到手续费波动、过度支付普遍以及区块容量利用不足的困扰。传统的**第一价格拍卖**迫使用户进行痛苦的猜测游戏，而 [EIP-1559 的基础费用机制](https://timroughgarden.org/papers/eip1559.pdf)，虽然有所改进，但也引入了算法振荡，并且[容易受到矿工的利用](https://arxiv.org/abs/2304.11478)。本文提出了一个基于 [AI 驱动的机制设计](https://link.springer.com/chapter/10.1007/978-981-97-9286-3_2) 的全新解决方案：一种**深度神经菜单拍卖（Deep Neural-Menu Auctions）**，它将 gas 分配重新定义为一种直接的、数据驱动的，并且可证明具有[激励相容性的机制](https://en.wikipedia.org/wiki/Incentive_compatibility)。

我们首先建立正式的经济学基础，定义用户类型、效用以及激励相容性和[个体理性](https://library.fiveable.me/key-terms/game-theory/individual-rationality)的核心原则。然后我们详细介绍我们提出的系统的架构，该系统由两个核心组件组成：
1.  一个**机制网络**，它摄取实时的区块链状态特征（例如，mempool 拥塞、手续费直方图）并输出一个紧凑的、最优的 $(gas, price)$ 选项菜单。
2.  一个可微的**买方网络**，它模拟用户针对此菜单的利润最大化选择，从而实现端到端训练。

我们详细阐述了我们的训练方法，该方法优化了一个综合损失函数，该损失函数平衡了预期收入和费用方差，并以编码为正则化项的经济先验为指导。为了处理突如其来的突发需求，我们引入了一个[强化学习](https://en.wikipedia.org/wiki/Reinforcement_learning)层，该层动态地调整菜单生成策略。我们提供了 **[ε-dominant-strategy incentive compatibility](https://library.fiveable.me/key-terms/game-theory/dominant-strategy-incentive-compatibility)** 和 **近乎最优收入** 的理论保证，证明我们的数据驱动方法不会牺牲经济的严谨性。最后，我们概述了一个可复现的实证研究蓝图，详细说明了数据集选择、基准机制和统计测试，以便未来的工作可以量化手续费方差的减少和区块利用率的提高。

***
## 1. 介绍：区块链 Gas 费的未解决问题

在以太坊这样的智能合约平台上产生的每个区块都代表着一种稀缺的、易腐的计算资源市场，或者称为 **“gas”**。在每个区块具有固定的 gas 容量 $G$ 的情况下，希望将其交易包含在内的用户必须竞标这个有限的空间。这种竞标过程的设计，即 **[手续费市场机制](https://learnblockchain.cn/article/13380)**，对[网络可用性](https://learnblockchain.cn/article/13379)、效率和公平性具有深远的影响。然而，现有的解决方案已被证明存在严重缺陷。

### 1.1 第一价格拍卖和 EIP-1559 的失败

大多数区块链的传统模型是一个简单的**第一价格拍卖**。在这个系统中，用户提交一个 gas 价格竞标，区块生产者（矿工或验证者）只需包含出价最高的交易，直到区块已满。虽然实现起来很简单，但这种机制迫使用户进行痛苦而低效的猜测游戏：
* **出价太低**，你的交易会在 mempool 中长时间滞留，时间无法预测，如果其条件到期，则可能会失败。
* **出价过高**，你会大幅超额支付，将大量盈余交给区块生产者。这种超额支付并非小问题；这是一个系统性缺陷，会产生糟糕的用户体验并提取不必要的成本。

以太坊的 [EIP-1559](https://timroughgarden.org/papers/eip1559.pdf) 是一项旨在弥补这些缺陷的具有里程碑意义的尝试。它引入了一个协议定义的**基础费用**，该费用基于区块利用率以算法方式进行调整，旨在使区块保持大约 50% 的已满状态。用户支付此基础费用（该费用会被销毁），并且可以添加可选的**优先费用**（或“小费”）以激励生产者包含交易。虽然 EIP-1559 成功地平滑了一些最极端的手续费峰值，并通过使手续费更具可预测性来改善了用户体验，但它也引入了自己的一系列[病态](https://arxiv.org/abs/2201.05574)：
1.  **振荡动态**：在持续高需求期间（例如，流行的 NFT 铸造），基础费用可能会随着该机制在其尝试瞄准 50% 利用率时过度纠正和纠正不足而剧烈振荡。
2.  **生产者利用**：精明的区块生产者可以采取策略来操纵基础费用以获取未来的收益。例如，控制连续区块的生产者可以生成一个空区块以人为地降低基础费用，从而允许他们在随后的区块中廉价地包含他们自己（或他们的合作伙伴）的交易。

这些持续存在的问题表明，一个真正高效且用户友好的手续费市场仍然是一个悬而未决的问题。

### 1.2 一种新的范式：神经菜单拍卖

为了纠正这些缺陷，我们求助于 **AI 驱动的机制设计** 的原则。我们提出的机制不是要求用户提供单一的推测性出价，而是定期发布一个简洁的 **选项菜单**。每个选项都是一个 $(gas, price)$ 对，表示为 $(g_k, p_k)$，以固定的、不容商量的价格 $p_k$ 提供特定的 gas 分配 $g_k$。用户只需从菜单中选择最大化其自身效用的单个选项即可。

这种方法基于直接机制的经济理论，具有一些巨大的优势：
* **激励相容性**：通过提供菜单，该机制变得 **[dominant-strategy incentive compatible (DSIC)](https://en.wikipedia.org/wiki/Incentive_compatibility)**。对于用户来说，最好的策略是简单而如实地选择他们最喜欢的选项。无需复杂的反投机或猜测其他人会出价什么。从结构上消除了超额支付。
* **个体理性**：该菜单始终包含零成本的“退出”选项 $(0, 0)$。这保证了 **[事后个体理性 (IR)](https://library.fiveable.me/key-terms/game-theory/individual-rationality)**，这意味着任何用户都不能被迫进行导致负收益的交易。
* **动态最优性**：我们提案的核心是使用 **深度学习 AI** 来生成这些菜单。一个 **机制网络**，在实时区块链数据（mempool 状态、手续费历史等）上进行训练，学习输出针对关键目标进行优化的菜单，例如最大化收入（或销毁的手续费）、最小化手续费方差和最大化区块利用率。可微的 **买方网络** 模拟用户响应，从而实现端到端优化。最后，**强化学习** 层允许系统适应其菜单生成策略，以应对突如其来、不可预测的需求冲击。

通过将机制设计的经济严谨性与深度学习的适应能力相结合，我们的神经菜单拍卖为下一代区块链规划了一条更高效、更稳定和更用户友好的手续费市场之路。虽然本文未能报告任何数值结果，但第 7 节提供了在历史以太坊数据上运行严格评估的逐步协议。

## 2. 正式预备知识：机制设计的语言

在详细介绍我们的架构之前，我们必须首先建立用于描述和分析此类系统的正式经济学语言。此基础确保我们的 AI 驱动方法建立在坚实的理论基础上。

### 2.1 类型空间和效用

在区块链手续费市场的背景下，我们将每个用户 $i$ 建模为具有私有信息的代理。此私有信息由他们的 **类型** 捕获，在这种情况下，他们的 **每单位 gas 的估值**，表示为 $v_i$。此值表示用户愿意为处理其交易而支付的每单位 gas 的最高价格。我们假设每个 $v_i$ 都是从 $\mathbb{R}_+$ 上支持的未知分布 $F$ 中独立抽取的。

我们采用 **准线性效用** 的标准假设。当估值为 $v_i$ 的用户 $i$ 被分配一定量的 gas $g$ 并被收取总费用 $p$ 时，他们的效用 $u_i$ 是其分配的总价值与其支付的价格之间的差额：
$$u_i = v_i \cdot g - p$$
一个理性的用户将始终采取行动来最大化此效用。

### 2.2 机制：从出价到菜单

一个 **机制** 定义了游戏的规则。一个通用的 **直接机制** 是一个元组 $\mathcal{M} = (A, g, h)$，其中：
* $A$ 是代理可用的操作集合。在直接机制中，操作空间是类型空间本身，$A_i = T_i = \mathbb{R}_+$，这意味着代理“报告”他们的类型。
* $g: A \to [0, G]$ 是 **分配规则**，它根据报告的类型确定每个代理收到的 gas 量。
* $h: A \to \mathbb{R}_+$ 是 **支付规则**，它确定向每个代理收取的费用。

我们的提案将其专门用于 **菜单机制**。该机制不是要求连续的估值报告，而是提供一组 $K$ 离散选项，$\{(g_k, p_k)\}_{k=1}^K$，加上一个“退出”选项 $(g_0, p_0) = (0, 0)$。用户的操作只是从此菜单中选择一个选项。

### 2.3 黄金法则：激励约束

为了使机制具有稳健性和用户友好性，它必须满足两个基本的经济约束：

1.  **Dominant-Strategy Incentive Compatibility (DSIC)**：如果对于每个用户来说，最好的策略是如实地行动，*无论任何其他用户的行为如何*，则该机制是 DSIC。在我们的菜单环境中，这意味着具有真实估值 $v_i$ 的用户通过选择真正最大化 $v_i \cdot g_k - p_k$ 的菜单项 $k$ 来最大化其效用。此属性消除了对策略性猜测的需求，并使系统透明且易于使用。从结构上消除了超额支付。

2.  **Ex-Post Individual Rationality (IR)**：如果不能强迫任何用户接受具有负效用的结果，则该机制是事后 IR。在我们的设计中，“退出”选项 $(0, 0)$ 的包含直接将此属性硬编码到我们的设计中。用户始终可以选择不进行交易且不产生任何费用，从而保证了最低效用为零。

**[显露原则](https://cs.brown.edu/courses/cs1951k/lectures/2020/revelation_principle.pdf)** 是机制设计理论的基石，它向我们保证，通过将我们的注意力限制在满足这些属性（诚实、直接的机制）的机制上，我们不会丢失我们可以实现的任何结果的通用性。这就是为什么我们可以自信地围绕基于菜单的方法构建我们的系统，而不必担心更复杂、间接的竞标语言可以实现更好的结果。

## 3. 深度神经菜单机制架构

![深度神经菜单机制架构 ](https://img.learnblockchain.cn/2025/07/20/deep-neural-menu-auctions-network.svg)

我们提出的系统的核心在于一个由两部分组成的深度神经网络架构，该架构旨在学习和部署最佳的手续费市场菜单。该架构直接将机制设计的经济学原理转化为一个实用的、数据驱动的框架。它由一个充当智能拍卖师的 **机制网络**（生成菜单），和一个充当理性用户的可微模型的 **买方网络**（使整个系统能够进行端到端训练）组成。

### 3.1 机制网络 ($M_\theta$)：智能拍卖师

**机制网络** 由权重 $\theta$ 参数化，负责为每个区块动态创建 $(gas, price)$ 选项的菜单。它充当手续费市场的核心智能，根据实时网络条件调整其产品。

#### **输入：感知网络状态**
为了做出明智的决策，网络摄取一个高维特征向量 $z \in \mathbb{R}^d$，该向量总结了区块链交易市场的当前状态。此向量包括需求和拥塞的关键指标，例如：
* **Mempool Gas 百分位数**：各种费用级别的待处理交易的需求的总 gas 的统计信息。
* **手续费直方图矩**：当前 mempool 中手续费率的均值、方差、偏度和峰度。
* **平均交易等待时间**：不同手续费级别的交易等待包含的平均时间。
* 其他时间序列数据，例如最近区块中的基础费用或利用率。

此特征向量 $z$ 提供了网络需求的丰富实时快照，从而使该机制能够主动而不是纯粹被动。

#### **架构和输出生成**
网络本身是一个标准的**前馈架构**（例如，具有 ReLU 激活的两个完全连接的隐藏层）。它的主要创新在于其两个专门的输出头，它们通过精心选择的激活函数生成菜单的 gas 分配和费用，这些激活函数嵌入了经济约束。

对于 $K$ 个选项的菜单，网络输出两组原始 logits：
1.  **Gas Logits $\tilde{g} \in \mathbb{R}^K$**：这些是无约束的实数值，表示每个菜单项的 gas 的比例分配。
2.  **费用 Logits $\tilde{p} \in \mathbb{R}^K$**：这些是无约束的实数值，将确定每个菜单项的价格。

然后将这些 logits 转换为有效、经济上合理的菜单：

* **Gas 分配归一化**：为了确保菜单中提供的总 gas 在区块 gas 限制 $G$ 方面是可行的，gas logits 通过一个 **softmax 函数** 传递并按 $G$ 缩放。菜单选项 $k$ 的 gas 数量，表示为 $g_k$，计算为：
    $$g_k = G \cdot \frac{\exp(\tilde{g}_k)}{\sum_{j=1}^K \exp(\tilde{g}_j)}$$
    这种优雅的公式确保跨所有菜单项分配的总 gas 恰好等于区块容量的总和，$\sum_k g_k = G$。

* **费用非负性**：为了确保费用始终为非负数，费用 logits 通过一个 **softplus 激活函数** 传递：
    $$p_k = \log(1 + e^{\tilde{p}_k})$$

* **嵌入个体理性 (IR)**：最后一个菜单选项 $(g_K, p_K)$ 被硬编码为 **(0, 0)“退出”选项**。这是一个关键的设计选择，它直接将 **事后个体理性** 属性嵌入到该机制中。任何用户都可以选择此选项以保证他们自己获得零效用，从而确保他们永远不会被迫进行亏损交易。

### 3.2 买方网络：用户选择的可微模型

为了训练机制网络，我们需要一种评估其生成的菜单质量的方法。这需要预测用户将如何对其做出反应。一个完全理性的用户只需选择最大化其效用 $u_k = v \cdot g_k - p_k$ 的菜单选项 $k$。但是，`argmax` 函数是不可微的，这意味着我们无法使用基于梯度的优化来训练系统。

**买方网络** 通过提供用户最优响应选择的 *可微近似* 来解决此问题。

#### **带温度的 Softmax 选择器**
给定一个估值为 $v$ 的用户和一个由机制网络生成的菜单 $\{(g_k, p_k)\}$，买方网络首先计算每个潜在选项的效用分数：

$$u_k = v \cdot g_k - p_k$$

然后，它使用一个 **带温度参数 $\alpha$ 的 softmax 函数** 将这些效用分数转换为菜单选择的概率分布。用户选择选项 $k$ 的概率，表示为 $\pi_k(v; z)$，为：

$$\pi_k(v;z) = \frac{\exp(\alpha \cdot u_k)}{\sum_{j=1}^K \exp(\alpha \cdot u_j)}$$

温度 $\alpha$ 是一个关键的**超参数**，它控制用户决策的“清晰度”：
* 当 $\alpha \to 0$ 时，选择概率接近均匀分布，从而对几乎随机选择的用户进行建模。
* 当 $\alpha \to \infty$ 时，softmax 函数的输出收敛到一个 one-hot 向量，将所有概率质量放在具有最高效用的单个选项上。这完美地模仿了纯粹理性的 $argmax$ 效用最大化器的行为。

在训练期间，我们可以使用一种称为 **温度退火** 的技术，从较低的 $\alpha$ 开始并逐渐增加它。这允许模型首先广泛地探索解决方案空间，然后在训练进行时微调其策略。

#### **确保激励相容性**
由于 softmax 函数是对完美最优响应的近似，因此生成的机制不是完全 DSIC。相反，它满足一个稍微宽松但实际上强大的属性，称为 **ε-dominant-strategy incentive compatibility (ε-DSIC)**。用户通过做出次优选择可能获得的潜在效用增益以一个小值 ε 为界，ε 是温度 $\alpha$ 和选项之间的最小效用差距 ($\Delta_{\min}$)的函数。该界限约为 $\varepsilon \lesssim (K-1)e^{-\alpha\Delta_{\min}}$。通过在已部署的模型中使用高温度 $\alpha$，我们可以使 ε 变得非常小，从而确保该机制对于所有实际目的都是防策略的。

## 4. 端到端训练方法

定义了架构后，下一步就是训练机制网络以生成最佳菜单。这是通过一个端到端训练过程来实现的，该过程在大量的历史区块链状态数据集上最小化一个复合损失函数。该方法旨在平衡相互竞争的经济目标，同时确保生成的菜单表现良好。

### 4.1 数据流水线

训练过程从一个强大的数据流水线开始。我们收集大量的 $N$ 个历史 mempool 快照，$\{z^{(i)}\}$。对于每个快照，我们需要一个具有代表性的用户估值样本来模拟他们的响应。由于真实的估值是私有的，我们通过将平滑的核密度估计拟合到最近成功包含的交易的 gas 价格来构建一个代理分布 $\hat{F}$。对于每个快照 $z^{(i)}$，我们然后抽取一批 $M$ 个用户估值 \$\{v_j^{(i)}\} \sim \hat{F}$ 以在训练步骤中使用。

### 4.2 组合损失函数

单一目标不足以捕获复杂的手续费市场的目标。单独最大化收入可能导致极端的手续费波动，而单独最小化方差可能牺牲收入。因此，我们优化了一个 **组合损失函数**，该函数智能地平衡三个关键目标，并由加权超参数控制。

#### 4.2.1 预期收入（要最大化）
主要目标是最大化该机制产生的预期收入（或销毁的费用）。这表示为负预期支付，在所有采样的快照和用户估值上平均。预期支付通过将每个菜单选项的价格 $p_k$ 乘以用户将选择它的概率 $\pi_k$ 来计算。

$$L_{\mathrm{rev}} = -\frac{1}{NM} \sum_{i=1}^N \sum_{j=1}^M \sum_{k=1}^K \pi_k(v_j^{(i)}; z^{(i)}) \cdot p_k(z^{(i)})$$

#### 4.2.2 费用方差惩罚（要最小化）
为了对抗手续费波动并创建一个更稳定、更可预测的市场，我们引入了对具有不同估值的用户支付的费用的方差的惩罚。对于每个状态 $z^{(i)}$，我们计算预期费用 $\overline{p}(z^{(i)})$ 并惩罚与此均值的平方偏差。这鼓励网络生成菜单，其中不同用户选择的价格更紧密地聚集在一起，从而平滑整体费用分布。

$$L_{\mathrm{var}} = \frac{1}{NM} \sum_{i,j} \left[ \sum_k \pi_k \cdot p_k - \overline{p}(z^{(i)}) \right]^2, \quad \text{其中} \quad \overline{p}(z) = \sum_k \pi_k \cdot p_k$$

#### 4.2.3 菜单正则化项
最后，我们添加了两个基于经济先验的正则化项，以确保学习的菜单简单直观：
* **稀疏性（$L_1$ 惩罚）**：对 gas 分配 \$\{g_k\}$ 的 $L_1$ 惩罚鼓励网络将某些分配设置为零。这会生成选项更少的更简单的菜单，从而减少用户的认知负荷并简化分析。
* **单调性惩罚**：我们强制执行一个自然属性，即用户不应为更多的 gas 支付更少的费用。如果更大的 gas 分配 $g_k$ 以低于更小的分配 $g_{k+1}$ 的价格 $p_k$ 提供，则会对任何菜单应用铰链损失惩罚。

#### 组合目标
这些组件被组合成一个单一的损失函数，其中超参数 $\beta_{\mathrm{var}}$、$\beta_1$ 和 $\beta_{\mathrm{mono}}$ 控制权衡：

$$L(\theta) = L_{\mathrm{rev}} + \beta_{\mathrm{var}}L_{\mathrm{var}} + \beta_1 \sum_k |g_k| + \beta_{\mathrm{mono}} \sum_{k=1}^{K-1} \max\{0, (g_k - g_{k+1})(p_k - p_{k+1})\}$$

此组合损失使用 **Adam 优化器** 在小批量（例如，32 个快照 × 64 个估值）上最小化。在训练期间，我们同时 **退火买方网络中的温度** $\alpha$，将其从较低的值（例如，1）逐渐增加到较高的值（例如，50）。这允许模型在训练开始时广泛地探索，然后收敛到清晰的、接近确定性的策略。

## 5. 理论保证

将我们的 AI 驱动框架置于机制设计理论中的一个主要优势是能够为其经济属性提供正式保证。虽然网络在经验数据上进行训练以优化实际目标，但其架构和训练背后的原则确保了它保持稳健、防策略且经济上合理。

### 5.1 ε-Dominant-Strategy Incentive Compatibility (ε-DSIC)

由于买方网络使用带温度 $\alpha$ 的 softmax 函数而不是纯粹的 $argmax$ 运算符，因此它对“接近理性”而不是完全理性的代理进行建模。因此，该机制不是完全 DSIC。但是，我们可以证明它是 **ε-DSIC**，这意味着通过不诚实地行为（即，选择次优菜单选项）可能获得的潜在效用增益以一个小值 ε 为上限。

对于任何不是效用最大化选择的菜单选项 $k$，其选择概率 $\pi_k$ 以 $\pi_k \le e^{-\alpha\Delta_{\min}}$ 为界，其中 $\Delta_{\min}$ 是最佳选项和任何其他选项之间的最小效用差。这意味着没有用户可以通过错误报告获得超过 ε 的收益，其中 ε 以以下公式为界：

$$\varepsilon \le (K-1) \Delta_{\max} e^{-\alpha\Delta_{\min}}$$

在这里，$\Delta_{\max}$ 是菜单上可能的最大效用差。通过在训练和部署期间将温度 $\alpha$ 退火到足够高的值，我们可以使此界限任意小，从而确保该机制 **对于所有实际目的都是防策略的**。

### 5.2 准确的事后个体理性 (IR)

该机制通过构建满足最强形式的个体理性 **事后 IR**。每个菜单中硬编码包含 **(0, 0)“退出”选项** 可确保每个用户（无论其估值如何）始终可以访问产生非负（具体来说，零）效用的操作。这完全消除了用户参与的风险，这是一个在去中心化环境中培养信任和采用的关键特征。

#### 5.3 收入近似保证

虽然我们的主要损失函数针对给定数据分布上的经验收入，但我们也可以提供一个理论链接到完全最佳机制的性能。梅尔森关于最佳拍卖的开创性工作为连续竞标环境提供了一个特征。通过将我们的菜单机制视为最佳连续定价规则的 **离散近似**，我们可以利用来自“简单与最佳”文献的已建立的结果。

在用户估值分布 $F$ 的温和规律性条件下，可以证明通过将最佳虚拟价值定价曲线离散化为 $K$ 个精心选择的菜单选项，该机制的预期收入至少达到 **$(1-\varepsilon) \times \text{OPT}$**，其中 OPT 是完全最佳（连续）拍卖的收入，ε 是一个随着菜单项数量 $K$ 增加而减少的项（具体来说，$K = O(1/\varepsilon)$）。此结果将拍卖理论的强大保证扩展到我们实际的离散菜单设置，确保我们的机制不仅在经验上有效，而且在理论上接近最优。

## 6. 通过强化学习进行动态自适应

静态训练的机制网络，即使将当前状态 $z$ 作为输入，也以固定的权重集 $\theta$ 运行。这在相对稳定的市场条件下是有效的，在这些条件下，需求模式在已知分布内波动。但是，区块链环境会受到突然和剧烈的体制转变的影响，例如备受瞩目的 NFT 铸造、流行空投或闪贷驱动的套利级联，这可以从根本上改变用户的估值分布。静态模型可能无法快速适应这些“黑天鹅”事件。

为了确保我们的机制实时保持稳健和最佳，我们引入了第二层学习：使用强化学习 (RL) 训练的 **动态自适应策略**。这种元学习者的工作不是直接生成菜单，而是 **调整机制网络本身的参数 $\theta$** 以响应主要的需求冲击。

### 6.1 作为马尔可夫决策过程 (MDP) 的问题

我们将此元学习任务构建为一个马尔可夫决策过程 (MDP)，并建立在 *AI 驱动的机制设计* 的概念之上。
* **状态 ($z_t$)**：当前状态是与机制网络使用的相同特征向量 $z_t$，捕获了 mempool 的实时条件。
* **操作 ($a_t$)**：操作是为机制网络 $M_\theta$ 选择一组新的参数 $\theta_t$。这表示菜单生成方式的高级战略转变。
* **策略 ($\pi_\phi$)**：策略是一个由权重 $\phi$ 参数化的单独的轻量级神经网络。它将状态 $z_t$ 作为输入，并输出机制网络的更新权重：$\theta_t = \pi_\phi(z_t)$。
* **奖励 ($r_t$)**：在机制网络使用参数 $\theta_t$ 运行一个区块（或一小部分区块）之后，元学习者会收到一个反映我们核心目标的奖励。区块 $t$ 的奖励是预期收入减去手续费方差的加权惩罚：
    $$r_t = \mathbb{E}_v[p_{\kappa(v)}] - \lambda \cdot \text{Var}_v[p_{\kappa(v)}]$$
    其中 $\kappa(v)$ 是估值为 $v$ 的用户选择的菜单项的索引，λ 是权衡参数。

### 6.2 使用近端策略优化 (PPO) 进行训练

目标是训练策略网络 $\pi_\phi$ 以最大化随时间的累积折扣奖励。考虑到高维和连续的行动空间（权重 $\theta$），我们采用 **近端策略优化 (PPO)**，这是一种最先进的策略梯度算法，以其稳定性和数据效率而闻名。

PPO 通过对策略网络 $\pi_\phi$ 进行增量更新来工作。在每个训练步骤中，它使用一个裁剪目标函数，该函数阻止对策略进行大的、剧烈的更改。这可以防止元学习者进行过于激进的更新，从而可能破坏手续费市场的稳定。相反，它学习对底层菜单生成逻辑进行平滑、受控的调整。

这种双层系统提供了两全其美的优势：
1.  **短期反应性**：机制网络 $M_\theta$ 对 mempool 状态 $z$ 的常规波动做出逐个区块的反应。
2.  **长期适应性**：经过 PPO 训练的策略网络 $\pi_\phi$ 会根据市场动态的重大、持续变化，在更长的时间尺度（例如，几分钟到几小时）内调整机制网络的整个策略。这使得手续费市场即使在极端拥塞或不可预见的事件期间也能保持接近最佳状态。

## 7. 实证研究方法蓝图

虽然我们未在此博客中发布结果，但社区需要一个清晰的配方来验证神经菜单拍卖。希望实施或复制我们的声明的研究人员应遵循以下说明。

### 7.1 数据收集
* **区块范围：** 选择至少 300 万个连续的以太坊主网区块，以涵盖多种需求状况（例如，涵盖伦敦和 Dencun 的区块 12,000,000–15,000,000）。
* **快照时序：** 在每个区块时间戳之前的 **10 秒** 捕获 mempool 状态，以避免偷看已包含的交易。
* **特征提取：** 存储百分位 gas 价格、高阶矩、平均等待时间和滚动基础费用向量 $b_{t-16:t}$。

### 7.2 估值代理
1.  对于每个历史区块，组合 *成功* 交易集并记录其支付的 gas 价格。
2.  将高斯核密度估计器拟合到此样本，以获得平滑的估值分布 $\hat F_t$。
3.  在模拟区块 $t$ 时，抽取用户估值 $v\sim\hat F_{t-1}$ 以尊重因果关系。

### 7.3 基准机制

| 标签 | 描述 |
|---|---|
| **FPA** | 传统的第一价格拍卖，使用未经修改的历史出价。 |
| **EIP-1559** | 重播历史基础费用演变；用户添加 2-gwei 小费。 |
| **静态菜单** | 离线训练的最佳菜单，权重已冻结。 |
| **深度神经菜单** | 由 $M_\theta$ 在线生成的菜单；PPO 元学习器已禁用以进行消融。 |
| **深度神经菜单 + RL** | 具有在线 PPO 更新的完整模型。 |

### 7.4 评估指标
* **手续费方差：** 每区块支付的手续费方差。
* **区块利用率：** $\frac{\text{已用 gas}}{G}$。
* **高价值延迟：** 99 分位估值 $v>\mu+2\sigma$ 的包含延迟。
* **社会福利：** 平均用户效用 $E[u]$。

### 7.5 实验设计
* **训练/验证拆分：** 按时间顺序在第一个 60% 上训练，在接下来的 20% 上进行验证，并在最后的 20% 上进行测试。
* **超参数搜索：** 在以下参数中对 50 个试验进行随机搜索：$K\in\{4,8,12\}$、买方温度计划 $\alpha_{\text{final}}\in[20,60]$ 和正则化权重 $\beta$。
* **统计测试：** 使用 10,000 个样本区块自举；报告 95% 置信区间并标记在 $p<0.01$ 时具有显着差异。
* **消融实验：** (i) 删除方差惩罚，(ii) 删除单调性惩罚，(iii) 将 PPO 学习率固定为 0 以隔离 RL 增益。

## 8. 部署途径

部署像我们的机制网络这样计算密集型的模型，并在稍后使用第 7 节的方法对其进行验证，需要一种混合的链上/链下设计，以保留去中心化和去信任化的核心原则。
1. **链下计算**：训练好的机制网络 $M_\theta$ 将由区块生产者（验证者或排序器）**链下**运行。在每个区块提议的开始，生产者会将当前网络状态向量 $z$ 输入到模型中，从而为该区块生成最佳菜单。
2. **链上发布与验证**：为了确保透明度，生产者必须将计算出的菜单发布在链上，例如，通过将其或对其的承诺（例如，Merkle 根）包含在区块头中。为了防止恶意生产者发布错误的或剥削性的菜单，他们还需要发布一个 **零知识简洁非交互式知识论证（ZK-SNARK）**。这个 ZK 证明将作为一种加密保证，允许任何人验证所发布的菜单是否是给定公共状态 $z$ 的公开已知机制网络的正确输出，而无需自己重新运行计算。
3. **钱包和用户交互**：用户钱包将通过 RPC 调用从节点获取当前经过验证的菜单。然后，钱包软件将通过最大化他们的效用 ($v \cdot g_k - p_k$) 在本地计算用户的最佳选择，并提交一个引用他们选择的菜单项的交易（例如，“我声明选项 #3”）。
4. **协议执行**：区块链的共识规则将执行费用。在处理交易时，协议将验证它是否声明了一个有效的菜单选项，并将收取（并销毁/分配）区块已发布菜单中指定的精确费用 $p_k$。

这种途径利用了链下计算的效率，同时使用链上密码学来维持去中心化协议必不可少的无需信任和可验证性。

## 9. 结论：迈向更完美的费用市场

区块链费用市场持续存在的挑战——波动性、超额支付和效率低下——不仅仅是工程问题；它们从根本上说是机制设计的问题。通过将 Gas 拍卖重新构想为直接、真实的**神经菜单机制**，我们可以从结构上解决这些问题。我们的方法将用户激励与协议目标对齐，消除了投机性的竞价猜测，并动态适应市场条件。

我们为统一三个不同领域（机制设计理论、深度学习和强化学习）提供的蓝图，为前进指明了方向；一旦执行了第 7 节的经验协议，社区将能够严格地衡量具体收益。通过继续弥合经济理论和前沿人工智能之间的差距，我们可以为更完美、去中心化的经济构建基础设施。

>- 原文链接： [github.com/thogiti/thogi...](https://github.com/thogiti/thogiti.github.io/blob/master/_posts/2025-07-19-deep-neural-auctions-AI-mechanism-blockchain-fee-markets.md)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

摘要

长期以来，区块链交易手续费市场一直受到手续费波动、过度支付普遍以及区块容量利用不足的困扰。传统的第一价格拍卖迫使用户进行痛苦的猜测游戏，而 EIP-1559 的基础费用机制，虽然有所改进，但也引入了算法振荡，并且容易受到矿工的利用。本文提出了一个基于 AI 驱动的机制设计的全新解决方案：一种深度神经菜单拍卖（Deep Neural-Menu Auctions），它将 gas 分配重新定义为一种直接的、数据驱动的，并且可证明具有激励相容性的机制。

我们首先建立正式的经济学基础，定义用户类型、效用以及激励相容性和个体理性的核心原则。然后我们详细介绍我们提出的系统的架构，该系统由两个核心组件组成：

一个机制网络，它摄取实时的区块链状态特征（例如，mempool 拥塞、手续费直方图）并输出一个紧凑的、最优的 $(gas, price)$ 选项菜单。
一个可微的买方网络，它模拟用户针对此菜单的利润最大化选择，从而实现端到端训练。

我们详细阐述了我们的训练方法，该方法优化了一个综合损失函数，该损失函数平衡了预期收入和费用方差，并以编码为正则化项的经济先验为指导。为了处理突如其来的突发需求，我们引入了一个强化学习层，该层动态地调整菜单生成策略。我们提供了 ε-dominant-strategy incentive compatibility 和 近乎最优收入 的理论保证，证明我们的数据驱动方法不会牺牲经济的严谨性。最后，我们概述了一个可复现的实证研究蓝图，详细说明了数据集选择、基准机制和统计测试，以便未来的工作可以量化手续费方差的减少和区块利用率的提高。

1. 介绍：区块链 Gas 费的未解决问题

在以太坊这样的智能合约平台上产生的每个区块都代表着一种稀缺的、易腐的计算资源市场，或者称为 “gas”。在每个区块具有固定的 gas 容量 $G$ 的情况下，希望将其交易包含在内的用户必须竞标这个有限的空间。这种竞标过程的设计，即 手续费市场机制，对网络可用性、效率和公平性具有深远的影响。然而，现有的解决方案已被证明存在严重缺陷。

1.1 第一价格拍卖和 EIP-1559 的失败

大多数区块链的传统模型是一个简单的第一价格拍卖。在这个系统中，用户提交一个 gas 价格竞标，区块生产者（矿工或验证者）只需包含出价最高的交易，直到区块已满。虽然实现起来很简单，但这种机制迫使用户进行痛苦而低效的猜测游戏：

出价太低，你的交易会在 mempool 中长时间滞留，时间无法预测，如果其条件到期，则可能会失败。
出价过高，你会大幅超额支付，将大量盈余交给区块生产者。这种超额支付并非小问题；这是一个系统性缺陷，会产生糟糕的用户体验并提取不必要的成本。

以太坊的 EIP-1559 是一项旨在弥补这些缺陷的具有里程碑意义的尝试。它引入了一个协议定义的基础费用，该费用基于区块利用率以算法方式进行调整，旨在使区块保持大约 50% 的已满状态。用户支付此基础费用（该费用会被销毁），并且可以添加可选的优先费用（或“小费”）以激励生产者包含交易。虽然 EIP-1559 成功地平滑了一些最极端的手续费峰值，并通过使手续费更具可预测性来改善了用户体验，但它也引入了自己的一系列病态：

振荡动态：在持续高需求期间（例如，流行的 NFT 铸造），基础费用可能会随着该机制在其尝试瞄准 50% 利用率时过度纠正和纠正不足而剧烈振荡。
生产者利用：精明的区块生产者可以采取策略来操纵基础费用以获取未来的收益。例如，控制连续区块的生产者可以生成一个空区块以人为地降低基础费用，从而允许他们在随后的区块中廉价地包含他们自己（或他们的合作伙伴）的交易。

这些持续存在的问题表明，一个真正高效且用户友好的手续费市场仍然是一个悬而未决的问题。

1.2 一种新的范式：神经菜单拍卖

为了纠正这些缺陷，我们求助于 AI 驱动的机制设计 的原则。我们提出的机制不是要求用户提供单一的推测性出价，而是定期发布一个简洁的 选项菜单。每个选项都是一个 $(gas, price)$ 对，表示为 $(g_k, p_k)$，以固定的、不容商量的价格 $p_k$ 提供特定的 gas 分配 $g_k$。用户只需从菜单中选择最大化其自身效用的单个选项即可。

这种方法基于直接机制的经济理论，具有一些巨大的优势：

激励相容性：通过提供菜单，该机制变得 dominant-strategy incentive compatible (DSIC)。对于用户来说，最好的策略是简单而如实地选择他们最喜欢的选项。无需复杂的反投机或猜测其他人会出价什么。从结构上消除了超额支付。
个体理性：该菜单始终包含零成本的“退出”选项 $(0, 0)$。这保证了 事后个体理性 (IR)，这意味着任何用户都不能被迫进行导致负收益的交易。
动态最优性：我们提案的核心是使用 深度学习 AI 来生成这些菜单。一个 机制网络，在实时区块链数据（mempool 状态、手续费历史等）上进行训练，学习输出针对关键目标进行优化的菜单，例如最大化收入（或销毁的手续费）、最小化手续费方差和最大化区块利用率。可微的 买方网络 模拟用户响应，从而实现端到端优化。最后，强化学习 层允许系统适应其菜单生成策略，以应对突如其来、不可预测的需求冲击。

2. 正式预备知识：机制设计的语言

在详细介绍我们的架构之前，我们必须首先建立用于描述和分析此类系统的正式经济学语言。此基础确保我们的 AI 驱动方法建立在坚实的理论基础上。

2.1 类型空间和效用

在区块链手续费市场的背景下，我们将每个用户 $i$ 建模为具有私有信息的代理。此私有信息由他们的类型捕获，在这种情况下，他们的 每单位 gas 的估值，表示为 $v_i$。此值表示用户愿意为处理其交易而支付的每单位 gas 的最高价格。我们假设每个 $vi$ 都是从 $\mathbb{R}+$ 上支持的未知分布 $F$ 中独立抽取的。

我们采用 准线性效用 的标准假设。当估值为 $v_i$ 的用户 $i$ 被分配一定量的 gas $g$ 并被收取总费用 $p$ 时，他们的效用 $u_i$ 是其分配的总价值与其支付的价格之间的差额： $$u_i = v_i \cdot g - p$$ 一个理性的用户将始终采取行动来最大化此效用。

2.2 机制：从出价到菜单

一个机制定义了游戏的规则。一个通用的 直接机制 是一个元组 $\mathcal{M} = (A, g, h)$，其中：

$A$ 是代理可用的操作集合。在直接机制中，操作空间是类型空间本身，$A_i = Ti = \mathbb{R}+$，这意味着代理“报告”他们的类型。
$g: A \to [0, G]$ 是 分配规则，它根据报告的类型确定每个代理收到的 gas 量。
$h: A \to \mathbb{R}_+$ 是 支付规则，它确定向每个代理收取的费用。

我们的提案将其专门用于 菜单机制。该机制不是要求连续的估值报告，而是提供一组 $K$ 离散选项，${(g_k, pk)}{k=1}^K$，加上一个“退出”选项 $(g_0, p_0) = (0, 0)$。用户的操作只是从此菜单中选择一个选项。

2.3 黄金法则：激励约束

为了使机制具有稳健性和用户友好性，它必须满足两个基本的经济约束：

Dominant-Strategy Incentive Compatibility (DSIC)：如果对于每个用户来说，最好的策略是如实地行动，无论任何其他用户的行为如何，则该机制是 DSIC。在我们的菜单环境中，这意味着具有真实估值 $v_i$ 的用户通过选择真正最大化 $v_i \cdot g_k - p_k$ 的菜单项 $k$ 来最大化其效用。此属性消除了对策略性猜测的需求，并使系统透明且易于使用。从结构上消除了超额支付。
Ex-Post Individual Rationality (IR)：如果不能强迫任何用户接受具有负效用的结果，则该机制是事后 IR。在我们的设计中，“退出”选项 $(0, 0)$ 的包含直接将此属性硬编码到我们的设计中。用户始终可以选择不进行交易且不产生任何费用，从而保证了最低效用为零。

显露原则 是机制设计理论的基石，它向我们保证，通过将我们的注意力限制在满足这些属性（诚实、直接的机制）的机制上，我们不会丢失我们可以实现的任何结果的通用性。这就是为什么我们可以自信地围绕基于菜单的方法构建我们的系统，而不必担心更复杂、间接的竞标语言可以实现更好的结果。

3. 深度神经菜单机制架构

我们提出的系统的核心在于一个由两部分组成的深度神经网络架构，该架构旨在学习和部署最佳的手续费市场菜单。该架构直接将机制设计的经济学原理转化为一个实用的、数据驱动的框架。它由一个充当智能拍卖师的 机制网络（生成菜单），和一个充当理性用户的可微模型的 买方网络（使整个系统能够进行端到端训练）组成。

3.1 机制网络 ($M_\theta$)：智能拍卖师

机制网络 由权重 $\theta$ 参数化，负责为每个区块动态创建 $(gas, price)$ 选项的菜单。它充当手续费市场的核心智能，根据实时网络条件调整其产品。

输入：感知网络状态

为了做出明智的决策，网络摄取一个高维特征向量 $z \in \mathbb{R}^d$，该向量总结了区块链交易市场的当前状态。此向量包括需求和拥塞的关键指标，例如：

Mempool Gas 百分位数：各种费用级别的待处理交易的需求的总 gas 的统计信息。
手续费直方图矩：当前 mempool 中手续费率的均值、方差、偏度和峰度。
平均交易等待时间：不同手续费级别的交易等待包含的平均时间。
其他时间序列数据，例如最近区块中的基础费用或利用率。

此特征向量 $z$ 提供了网络需求的丰富实时快照，从而使该机制能够主动而不是纯粹被动。

架构和输出生成

网络本身是一个标准的前馈架构（例如，具有 ReLU 激活的两个完全连接的隐藏层）。它的主要创新在于其两个专门的输出头，它们通过精心选择的激活函数生成菜单的 gas 分配和费用，这些激活函数嵌入了经济约束。

对于 $K$ 个选项的菜单，网络输出两组原始 logits：

Gas Logits $\tilde{g} \in \mathbb{R}^K$：这些是无约束的实数值，表示每个菜单项的 gas 的比例分配。
费用 Logits $\tilde{p} \in \mathbb{R}^K$：这些是无约束的实数值，将确定每个菜单项的价格。

然后将这些 logits 转换为有效、经济上合理的菜单：

Gas 分配归一化：为了确保菜单中提供的总 gas 在区块 gas 限制 $G$ 方面是可行的，gas logits 通过一个 softmax 函数 传递并按 $G$ 缩放。菜单选项 $k$ 的 gas 数量，表示为 $g_k$，计算为： $$g_k = G \cdot \frac{\exp(\tilde{g}k)}{\sum{j=1}^K \exp(\tilde{g}_j)}$$ 这种优雅的公式确保跨所有菜单项分配的总 gas 恰好等于区块容量的总和，$\sum_k g_k = G$。
费用非负性：为了确保费用始终为非负数，费用 logits 通过一个 softplus 激活函数 传递： $$p_k = \log(1 + e^{\tilde{p}_k})$$
嵌入个体理性 (IR)：最后一个菜单选项 $(g_K, p_K)$ 被硬编码为 (0, 0)“退出”选项。这是一个关键的设计选择，它直接将 事后个体理性 属性嵌入到该机制中。任何用户都可以选择此选项以保证他们自己获得零效用，从而确保他们永远不会被迫进行亏损交易。

3.2 买方网络：用户选择的可微模型

为了训练机制网络，我们需要一种评估其生成的菜单质量的方法。这需要预测用户将如何对其做出反应。一个完全理性的用户只需选择最大化其效用 $u_k = v \cdot g_k - p_k$ 的菜单选项 $k$。但是，argmax 函数是不可微的，这意味着我们无法使用基于梯度的优化来训练系统。

买方网络 通过提供用户最优响应选择的 可微近似 来解决此问题。

带温度的 Softmax 选择器

给定一个估值为 $v$ 的用户和一个由机制网络生成的菜单 ${(g_k, p_k)}$，买方网络首先计算每个潜在选项的效用分数：

$$u_k = v \cdot g_k - p_k$$

然后，它使用一个 带温度参数 $\alpha$ 的 softmax 函数 将这些效用分数转换为菜单选择的概率分布。用户选择选项 $k$ 的概率，表示为 $\pi_k(v; z)$，为：

$$\pi_k(v;z) = \frac{\exp(\alpha \cdot uk)}{\sum{j=1}^K \exp(\alpha \cdot u_j)}$$

温度 $\alpha$ 是一个关键的超参数，它控制用户决策的“清晰度”：

当 $\alpha \to 0$ 时，选择概率接近均匀分布，从而对几乎随机选择的用户进行建模。
当 $\alpha \to \infty$ 时，softmax 函数的输出收敛到一个 one-hot 向量，将所有概率质量放在具有最高效用的单个选项上。这完美地模仿了纯粹理性的 $argmax$ 效用最大化器的行为。

在训练期间，我们可以使用一种称为 温度退火 的技术，从较低的 $\alpha$ 开始并逐渐增加它。这允许模型首先广泛地探索解决方案空间，然后在训练进行时微调其策略。

确保激励相容性

由于 softmax 函数是对完美最优响应的近似，因此生成的机制不是完全 DSIC。相反，它满足一个稍微宽松但实际上强大的属性，称为 ε-dominant-strategy incentive compatibility (ε-DSIC)。用户通过做出次优选择可能获得的潜在效用增益以一个小值 ε 为界，ε 是温度 $\alpha$ 和选项之间的最小效用差距 ($\Delta{\min}$)的函数。该界限约为 $\varepsilon \lesssim (K-1)e^{-\alpha\Delta{\min}}$。通过在已部署的模型中使用高温度 $\alpha$，我们可以使 ε 变得非常小，从而确保该机制对于所有实际目的都是防策略的。

4. 端到端训练方法

4.1 数据流水线

训练过程从一个强大的数据流水线开始。我们收集大量的 $N$ 个历史 mempool 快照，${z^{(i)}}$。对于每个快照，我们需要一个具有代表性的用户估值样本来模拟他们的响应。由于真实的估值是私有的，我们通过将平滑的核密度估计拟合到最近成功包含的交易的 gas 价格来构建一个代理分布 $\hat{F}$。对于每个快照 $z^{(i)}$，我们然后抽取一批 $M$ 个用户估值 \${v_j^{(i)}} \sim \hat{F}$ 以在训练步骤中使用。

4.2 组合损失函数

单一目标不足以捕获复杂的手续费市场的目标。单独最大化收入可能导致极端的手续费波动，而单独最小化方差可能牺牲收入。因此，我们优化了一个 组合损失函数，该函数智能地平衡三个关键目标，并由加权超参数控制。

4.2.1 预期收入（要最大化）

主要目标是最大化该机制产生的预期收入（或销毁的费用）。这表示为负预期支付，在所有采样的快照和用户估值上平均。预期支付通过将每个菜单选项的价格 $p_k$ 乘以用户将选择它的概率 $\pi_k$ 来计算。

$$L{\mathrm{rev}} = -\frac{1}{NM} \sum{i=1}^N \sum{j=1}^M \sum{k=1}^K \pi_k(v_j^{(i)}; z^{(i)}) \cdot p_k(z^{(i)})$$

4.2.2 费用方差惩罚（要最小化）

为了对抗手续费波动并创建一个更稳定、更可预测的市场，我们引入了对具有不同估值的用户支付的费用的方差的惩罚。对于每个状态 $z^{(i)}$，我们计算预期费用 $\overline{p}(z^{(i)})$ 并惩罚与此均值的平方偏差。这鼓励网络生成菜单，其中不同用户选择的价格更紧密地聚集在一起，从而平滑整体费用分布。

$$L{\mathrm{var}} = \frac{1}{NM} \sum{i,j} \left[ \sum_k \pi_k \cdot p_k - \overline{p}(z^{(i)}) \right]^2, \quad \text{其中} \quad \overline{p}(z) = \sum_k \pi_k \cdot p_k$$

4.2.3 菜单正则化项

最后，我们添加了两个基于经济先验的正则化项，以确保学习的菜单简单直观：

稀疏性（$L_1$ 惩罚）：对 gas 分配 \${g_k}$ 的 $L_1$ 惩罚鼓励网络将某些分配设置为零。这会生成选项更少的更简单的菜单，从而减少用户的认知负荷并简化分析。
单调性惩罚：我们强制执行一个自然属性，即用户不应为更多的 gas 支付更少的费用。如果更大的 gas 分配 $gk$ 以低于更小的分配 $g{k+1}$ 的价格 $p_k$ 提供，则会对任何菜单应用铰链损失惩罚。

组合目标

这些组件被组合成一个单一的损失函数，其中超参数 $\beta_{\mathrm{var}}$、$\beta1$ 和 $\beta{\mathrm{mono}}$ 控制权衡：

$$L(\theta) = L{\mathrm{rev}} + \beta{\mathrm{var}}L_{\mathrm{var}} + \beta_1 \sum_k |gk| + \beta{\mathrm{mono}} \sum_{k=1}^{K-1} \max{0, (gk - g{k+1})(pk - p{k+1})}$$

此组合损失使用 Adam 优化器 在小批量（例如，32 个快照 × 64 个估值）上最小化。在训练期间，我们同时 退火买方网络中的温度 $\alpha$，将其从较低的值（例如，1）逐渐增加到较高的值（例如，50）。这允许模型在训练开始时广泛地探索，然后收敛到清晰的、接近确定性的策略。

5. 理论保证

5.1 ε-Dominant-Strategy Incentive Compatibility (ε-DSIC)

由于买方网络使用带温度 $\alpha$ 的 softmax 函数而不是纯粹的 $argmax$ 运算符，因此它对“接近理性”而不是完全理性的代理进行建模。因此，该机制不是完全 DSIC。但是，我们可以证明它是 ε-DSIC，这意味着通过不诚实地行为（即，选择次优菜单选项）可能获得的潜在效用增益以一个小值 ε 为上限。

对于任何不是效用最大化选择的菜单选项 $k$，其选择概率 $\pi_k$ 以 $\pik \le e^{-\alpha\Delta{\min}}$ 为界，其中 $\Delta_{\min}$ 是最佳选项和任何其他选项之间的最小效用差。这意味着没有用户可以通过错误报告获得超过 ε 的收益，其中 ε 以以下公式为界：

$$\varepsilon \le (K-1) \Delta{\max} e^{-\alpha\Delta{\min}}$$

在这里，$\Delta_{\max}$ 是菜单上可能的最大效用差。通过在训练和部署期间将温度 $\alpha$ 退火到足够高的值，我们可以使此界限任意小，从而确保该机制 对于所有实际目的都是防策略的。

5.2 准确的事后个体理性 (IR)

该机制通过构建满足最强形式的个体理性 事后 IR。每个菜单中硬编码包含 (0, 0)“退出”选项 可确保每个用户（无论其估值如何）始终可以访问产生非负（具体来说，零）效用的操作。这完全消除了用户参与的风险，这是一个在去中心化环境中培养信任和采用的关键特征。

5.3 收入近似保证

虽然我们的主要损失函数针对给定数据分布上的经验收入，但我们也可以提供一个理论链接到完全最佳机制的性能。梅尔森关于最佳拍卖的开创性工作为连续竞标环境提供了一个特征。通过将我们的菜单机制视为最佳连续定价规则的 离散近似，我们可以利用来自“简单与最佳”文献的已建立的结果。

在用户估值分布 $F$ 的温和规律性条件下，可以证明通过将最佳虚拟价值定价曲线离散化为 $K$ 个精心选择的菜单选项，该机制的预期收入至少达到 $(1-\varepsilon) \times \text{OPT}$，其中 OPT 是完全最佳（连续）拍卖的收入，ε 是一个随着菜单项数量 $K$ 增加而减少的项（具体来说，$K = O(1/\varepsilon)$）。此结果将拍卖理论的强大保证扩展到我们实际的离散菜单设置，确保我们的机制不仅在经验上有效，而且在理论上接近最优。

6. 通过强化学习进行动态自适应

为了确保我们的机制实时保持稳健和最佳，我们引入了第二层学习：使用强化学习 (RL) 训练的 动态自适应策略。这种元学习者的工作不是直接生成菜单，而是 调整机制网络本身的参数 $\theta$ 以响应主要的需求冲击。

6.1 作为马尔可夫决策过程 (MDP) 的问题

我们将此元学习任务构建为一个马尔可夫决策过程 (MDP)，并建立在 AI 驱动的机制设计 的概念之上。

状态 ($z_t$)：当前状态是与机制网络使用的相同特征向量 $z_t$，捕获了 mempool 的实时条件。
操作 ($a_t$)：操作是为机制网络 $M_\theta$ 选择一组新的参数 $\theta_t$。这表示菜单生成方式的高级战略转变。
策略 ($\pi_\phi$)：策略是一个由权重 $\phi$ 参数化的单独的轻量级神经网络。它将状态 $z_t$ 作为输入，并输出机制网络的更新权重：$\thetat = \pi\phi(z_t)$。
奖励 ($r_t$)：在机制网络使用参数 $\theta_t$ 运行一个区块（或一小部分区块）之后，元学习者会收到一个反映我们核心目标的奖励。区块 $t$ 的奖励是预期收入减去手续费方差的加权惩罚： $$r_t = \mathbb{E}v[p{\kappa(v)}] - \lambda \cdot \text{Var}v[p{\kappa(v)}]$$ 其中 $\kappa(v)$ 是估值为 $v$ 的用户选择的菜单项的索引，λ 是权衡参数。

6.2 使用近端策略优化 (PPO) 进行训练

目标是训练策略网络 $\pi_\phi$ 以最大化随时间的累积折扣奖励。考虑到高维和连续的行动空间（权重 $\theta$），我们采用 近端策略优化 (PPO)，这是一种最先进的策略梯度算法，以其稳定性和数据效率而闻名。

这种双层系统提供了两全其美的优势：

短期反应性：机制网络 $M_\theta$ 对 mempool 状态 $z$ 的常规波动做出逐个区块的反应。
长期适应性：经过 PPO 训练的策略网络 $\pi_\phi$ 会根据市场动态的重大、持续变化，在更长的时间尺度（例如，几分钟到几小时）内调整机制网络的整个策略。这使得手续费市场即使在极端拥塞或不可预见的事件期间也能保持接近最佳状态。

7. 实证研究方法蓝图