本文提出了一种基于AI驱动机制设计的区块链交易费用解决方案:深度神经菜单拍卖。该方案通过Mechanism Network动态生成gas和price的菜单选项,用户选择效用最大化的选项,实现激励兼容性和个体理性。Buyer Network模拟用户选择,通过端到端训练优化收益和降低费用差异,并通过强化学习适应需求冲击,旨在创建更高效、稳定和用户友好的费用市场。
长期以来,区块链交易手续费市场一直受到手续费波动、过度支付普遍以及区块容量利用不足的困扰。传统的第一价格拍卖迫使用户进行痛苦的猜测游戏,而 EIP-1559 的基础费用机制,虽然有所改进,但也引入了算法振荡,并且容易受到矿工的利用。本文提出了一个基于 AI 驱动的机制设计 的全新解决方案:一种深度神经菜单拍卖(Deep Neural-Menu Auctions),它将 gas 分配重新定义为一种直接的、数据驱动的,并且可证明具有激励相容性的机制。
我们首先建立正式的经济学基础,定义用户类型、效用以及激励相容性和个体理性的核心原则。然后我们详细介绍我们提出的系统的架构,该系统由两个核心组件组成:
我们详细阐述了我们的训练方法,该方法优化了一个综合损失函数,该损失函数平衡了预期收入和费用方差,并以编码为正则化项的经济先验为指导。为了处理突如其来的突发需求,我们引入了一个强化学习层,该层动态地调整菜单生成策略。我们提供了 ε-dominant-strategy incentive compatibility 和 近乎最优收入 的理论保证,证明我们的数据驱动方法不会牺牲经济的严谨性。最后,我们概述了一个可复现的实证研究蓝图,详细说明了数据集选择、基准机制和统计测试,以便未来的工作可以量化手续费方差的减少和区块利用率的提高。
在以太坊这样的智能合约平台上产生的每个区块都代表着一种稀缺的、易腐的计算资源市场,或者称为 “gas”。在每个区块具有固定的 gas 容量 $G$ 的情况下,希望将其交易包含在内的用户必须竞标这个有限的空间。这种竞标过程的设计,即 手续费市场机制,对网络可用性、效率和公平性具有深远的影响。然而,现有的解决方案已被证明存在严重缺陷。
大多数区块链的传统模型是一个简单的第一价格拍卖。在这个系统中,用户提交一个 gas 价格竞标,区块生产者(矿工或验证者)只需包含出价最高的交易,直到区块已满。虽然实现起来很简单,但这种机制迫使用户进行痛苦而低效的猜测游戏:
以太坊的 EIP-1559 是一项旨在弥补这些缺陷的具有里程碑意义的尝试。它引入了一个协议定义的基础费用,该费用基于区块利用率以算法方式进行调整,旨在使区块保持大约 50% 的已满状态。用户支付此基础费用(该费用会被销毁),并且可以添加可选的优先费用(或“小费”)以激励生产者包含交易。虽然 EIP-1559 成功地平滑了一些最极端的手续费峰值,并通过使手续费更具可预测性来改善了用户体验,但它也引入了自己的一系列病态:
这些持续存在的问题表明,一个真正高效且用户友好的手续费市场仍然是一个悬而未决的问题。
为了纠正这些缺陷,我们求助于 AI 驱动的机制设计 的原则。我们提出的机制不是要求用户提供单一的推测性出价,而是定期发布一个简洁的 选项菜单。每个选项都是一个 $(gas, price)$ 对,表示为 $(g_k, p_k)$,以固定的、不容商量的价格 $p_k$ 提供特定的 gas 分配 $g_k$。用户只需从菜单中选择最大化其自身效用的单个选项即可。
这种方法基于直接机制的经济理论,具有一些巨大的优势:
通过将机制设计的经济严谨性与深度学习的适应能力相结合,我们的神经菜单拍卖为下一代区块链规划了一条更高效、更稳定和更用户友好的手续费市场之路。虽然本文未能报告任何数值结果,但第 7 节提供了在历史以太坊数据上运行严格评估的逐步协议。
在详细介绍我们的架构之前,我们必须首先建立用于描述和分析此类系统的正式经济学语言。此基础确保我们的 AI 驱动方法建立在坚实的理论基础上。
在区块链手续费市场的背景下,我们将每个用户 $i$ 建模为具有私有信息的代理。此私有信息由他们的 类型 捕获,在这种情况下,他们的 每单位 gas 的估值,表示为 $v_i$。此值表示用户愿意为处理其交易而支付的每单位 gas 的最高价格。我们假设每个 $vi$ 都是从 $\mathbb{R}+$ 上支持的未知分布 $F$ 中独立抽取的。
我们采用 准线性效用 的标准假设。当估值为 $v_i$ 的用户 $i$ 被分配一定量的 gas $g$ 并被收取总费用 $p$ 时,他们的效用 $u_i$ 是其分配的总价值与其支付的价格之间的差额: $$u_i = v_i \cdot g - p$$ 一个理性的用户将始终采取行动来最大化此效用。
一个 机制 定义了游戏的规则。一个通用的 直接机制 是一个元组 $\mathcal{M} = (A, g, h)$,其中:
我们的提案将其专门用于 菜单机制。该机制不是要求连续的估值报告,而是提供一组 $K$ 离散选项,${(g_k, pk)}{k=1}^K$,加上一个“退出”选项 $(g_0, p_0) = (0, 0)$。用户的操作只是从此菜单中选择一个选项。
为了使机制具有稳健性和用户友好性,它必须满足两个基本的经济约束:
Dominant-Strategy Incentive Compatibility (DSIC):如果对于每个用户来说,最好的策略是如实地行动,无论任何其他用户的行为如何,则该机制是 DSIC。在我们的菜单环境中,这意味着具有真实估值 $v_i$ 的用户通过选择真正最大化 $v_i \cdot g_k - p_k$ 的菜单项 $k$ 来最大化其效用。此属性消除了对策略性猜测的需求,并使系统透明且易于使用。从结构上消除了超额支付。
Ex-Post Individual Rationality (IR):如果不能强迫任何用户接受具有负效用的结果,则该机制是事后 IR。在我们的设计中,“退出”选项 $(0, 0)$ 的包含直接将此属性硬编码到我们的设计中。用户始终可以选择不进行交易且不产生任何费用,从而保证了最低效用为零。
显露原则 是机制设计理论的基石,它向我们保证,通过将我们的注意力限制在满足这些属性(诚实、直接的机制)的机制上,我们不会丢失我们可以实现的任何结果的通用性。这就是为什么我们可以自信地围绕基于菜单的方法构建我们的系统,而不必担心更复杂、间接的竞标语言可以实现更好的结果。
我们提出的系统的核心在于一个由两部分组成的深度神经网络架构,该架构旨在学习和部署最佳的手续费市场菜单。该架构直接将机制设计的经济学原理转化为一个实用的、数据驱动的框架。它由一个充当智能拍卖师的 机制网络(生成菜单),和一个充当理性用户的可微模型的 买方网络(使整个系统能够进行端到端训练)组成。
机制网络 由权重 $\theta$ 参数化,负责为每个区块动态创建 $(gas, price)$ 选项的菜单。它充当手续费市场的核心智能,根据实时网络条件调整其产品。
为了做出明智的决策,网络摄取一个高维特征向量 $z \in \mathbb{R}^d$,该向量总结了区块链交易市场的当前状态。此向量包括需求和拥塞的关键指标,例如:
此特征向量 $z$ 提供了网络需求的丰富实时快照,从而使该机制能够主动而不是纯粹被动。
网络本身是一个标准的前馈架构(例如,具有 ReLU 激活的两个完全连接的隐藏层)。它的主要创新在于其两个专门的输出头,它们通过精心选择的激活函数生成菜单的 gas 分配和费用,这些激活函数嵌入了经济约束。
对于 $K$ 个选项的菜单,网络输出两组原始 logits:
然后将这些 logits 转换为有效、经济上合理的菜单:
Gas 分配归一化:为了确保菜单中提供的总 gas 在区块 gas 限制 $G$ 方面是可行的,gas logits 通过一个 softmax 函数 传递并按 $G$ 缩放。菜单选项 $k$ 的 gas 数量,表示为 $g_k$,计算为: $$g_k = G \cdot \frac{\exp(\tilde{g}k)}{\sum{j=1}^K \exp(\tilde{g}_j)}$$ 这种优雅的公式确保跨所有菜单项分配的总 gas 恰好等于区块容量的总和,$\sum_k g_k = G$。
费用非负性:为了确保费用始终为非负数,费用 logits 通过一个 softplus 激活函数 传递: $$p_k = \log(1 + e^{\tilde{p}_k})$$
嵌入个体理性 (IR):最后一个菜单选项 $(g_K, p_K)$ 被硬编码为 (0, 0)“退出”选项。这是一个关键的设计选择,它直接将 事后个体理性 属性嵌入到该机制中。任何用户都可以选择此选项以保证他们自己获得零效用,从而确保他们永远不会被迫进行亏损交易。
为了训练机制网络,我们需要一种评估其生成的菜单质量的方法。这需要预测用户将如何对其做出反应。一个完全理性的用户只需选择最大化其效用 $u_k = v \cdot g_k - p_k$ 的菜单选项 $k$。但是,argmax
函数是不可微的,这意味着我们无法使用基于梯度的优化来训练系统。
买方网络 通过提供用户最优响应选择的 可微近似 来解决此问题。
给定一个估值为 $v$ 的用户和一个由机制网络生成的菜单 ${(g_k, p_k)}$,买方网络首先计算每个潜在选项的效用分数:
$$u_k = v \cdot g_k - p_k$$
然后,它使用一个 带温度参数 $\alpha$ 的 softmax 函数 将这些效用分数转换为菜单选择的概率分布。用户选择选项 $k$ 的概率,表示为 $\pi_k(v; z)$,为:
$$\pi_k(v;z) = \frac{\exp(\alpha \cdot uk)}{\sum{j=1}^K \exp(\alpha \cdot u_j)}$$
温度 $\alpha$ 是一个关键的超参数,它控制用户决策的“清晰度”:
在训练期间,我们可以使用一种称为 温度退火 的技术,从较低的 $\alpha$ 开始并逐渐增加它。这允许模型首先广泛地探索解决方案空间,然后在训练进行时微调其策略。
由于 softmax 函数是对完美最优响应的近似,因此生成的机制不是完全 DSIC。相反,它满足一个稍微宽松但实际上强大的属性,称为 ε-dominant-strategy incentive compatibility (ε-DSIC)。用户通过做出次优选择可能获得的潜在效用增益以一个小值 ε 为界,ε 是温度 $\alpha$ 和选项之间的最小效用差距 ($\Delta{\min}$)的函数。该界限约为 $\varepsilon \lesssim (K-1)e^{-\alpha\Delta{\min}}$。通过在已部署的模型中使用高温度 $\alpha$,我们可以使 ε 变得非常小,从而确保该机制对于所有实际目的都是防策略的。
定义了架构后,下一步就是训练机制网络以生成最佳菜单。这是通过一个端到端训练过程来实现的,该过程在大量的历史区块链状态数据集上最小化一个复合损失函数。该方法旨在平衡相互竞争的经济目标,同时确保生成的菜单表现良好。
训练过程从一个强大的数据流水线开始。我们收集大量的 $N$ 个历史 mempool 快照,${z^{(i)}}$。对于每个快照,我们需要一个具有代表性的用户估值样本来模拟他们的响应。由于真实的估值是私有的,我们通过将平滑的核密度估计拟合到最近成功包含的交易的 gas 价格来构建一个代理分布 $\hat{F}$。对于每个快照 $z^{(i)}$,我们然后抽取一批 $M$ 个用户估值 \${v_j^{(i)}} \sim \hat{F}$ 以在训练步骤中使用。
单一目标不足以捕获复杂的手续费市场的目标。单独最大化收入可能导致极端的手续费波动,而单独最小化方差可能牺牲收入。因此,我们优化了一个 组合损失函数,该函数智能地平衡三个关键目标,并由加权超参数控制。
主要目标是最大化该机制产生的预期收入(或销毁的费用)。这表示为负预期支付,在所有采样的快照和用户估值上平均。预期支付通过将每个菜单选项的价格 $p_k$ 乘以用户将选择它的概率 $\pi_k$ 来计算。
$$L{\mathrm{rev}} = -\frac{1}{NM} \sum{i=1}^N \sum{j=1}^M \sum{k=1}^K \pi_k(v_j^{(i)}; z^{(i)}) \cdot p_k(z^{(i)})$$
为了对抗手续费波动并创建一个更稳定、更可预测的市场,我们引入了对具有不同估值的用户支付的费用的方差的惩罚。对于每个状态 $z^{(i)}$,我们计算预期费用 $\overline{p}(z^{(i)})$ 并惩罚与此均值的平方偏差。这鼓励网络生成菜单,其中不同用户选择的价格更紧密地聚集在一起,从而平滑整体费用分布。
$$L{\mathrm{var}} = \frac{1}{NM} \sum{i,j} \left[ \sum_k \pi_k \cdot p_k - \overline{p}(z^{(i)}) \right]^2, \quad \text{其中} \quad \overline{p}(z) = \sum_k \pi_k \cdot p_k$$
最后,我们添加了两个基于经济先验的正则化项,以确保学习的菜单简单直观:
这些组件被组合成一个单一的损失函数,其中超参数 $\beta_{\mathrm{var}}$、$\beta1$ 和 $\beta{\mathrm{mono}}$ 控制权衡:
$$L(\theta) = L{\mathrm{rev}} + \beta{\mathrm{var}}L_{\mathrm{var}} + \beta_1 \sum_k |gk| + \beta{\mathrm{mono}} \sum_{k=1}^{K-1} \max{0, (gk - g{k+1})(pk - p{k+1})}$$
此组合损失使用 Adam 优化器 在小批量(例如,32 个快照 × 64 个估值)上最小化。在训练期间,我们同时 退火买方网络中的温度 $\alpha$,将其从较低的值(例如,1)逐渐增加到较高的值(例如,50)。这允许模型在训练开始时广泛地探索,然后收敛到清晰的、接近确定性的策略。
将我们的 AI 驱动框架置于机制设计理论中的一个主要优势是能够为其经济属性提供正式保证。虽然网络在经验数据上进行训练以优化实际目标,但其架构和训练背后的原则确保了它保持稳健、防策略且经济上合理。
由于买方网络使用带温度 $\alpha$ 的 softmax 函数而不是纯粹的 $argmax$ 运算符,因此它对“接近理性”而不是完全理性的代理进行建模。因此,该机制不是完全 DSIC。但是,我们可以证明它是 ε-DSIC,这意味着通过不诚实地行为(即,选择次优菜单选项)可能获得的潜在效用增益以一个小值 ε 为上限。
对于任何不是效用最大化选择的菜单选项 $k$,其选择概率 $\pi_k$ 以 $\pik \le e^{-\alpha\Delta{\min}}$ 为界,其中 $\Delta_{\min}$ 是最佳选项和任何其他选项之间的最小效用差。这意味着没有用户可以通过错误报告获得超过 ε 的收益,其中 ε 以以下公式为界:
$$\varepsilon \le (K-1) \Delta{\max} e^{-\alpha\Delta{\min}}$$
在这里,$\Delta_{\max}$ 是菜单上可能的最大效用差。通过在训练和部署期间将温度 $\alpha$ 退火到足够高的值,我们可以使此界限任意小,从而确保该机制 对于所有实际目的都是防策略的。
该机制通过构建满足最强形式的个体理性 事后 IR。每个菜单中硬编码包含 (0, 0)“退出”选项 可确保每个用户(无论其估值如何)始终可以访问产生非负(具体来说,零)效用的操作。这完全消除了用户参与的风险,这是一个在去中心化环境中培养信任和采用的关键特征。
虽然我们的主要损失函数针对给定数据分布上的经验收入,但我们也可以提供一个理论链接到完全最佳机制的性能。梅尔森关于最佳拍卖的开创性工作为连续竞标环境提供了一个特征。通过将我们的菜单机制视为最佳连续定价规则的 离散近似,我们可以利用来自“简单与最佳”文献的已建立的结果。
在用户估值分布 $F$ 的温和规律性条件下,可以证明通过将最佳虚拟价值定价曲线离散化为 $K$ 个精心选择的菜单选项,该机制的预期收入至少达到 $(1-\varepsilon) \times \text{OPT}$,其中 OPT 是完全最佳(连续)拍卖的收入,ε 是一个随着菜单项数量 $K$ 增加而减少的项(具体来说,$K = O(1/\varepsilon)$)。此结果将拍卖理论的强大保证扩展到我们实际的离散菜单设置,确保我们的机制不仅在经验上有效,而且在理论上接近最优。
静态训练的机制网络,即使将当前状态 $z$ 作为输入,也以固定的权重集 $\theta$ 运行。这在相对稳定的市场条件下是有效的,在这些条件下,需求模式在已知分布内波动。但是,区块链环境会受到突然和剧烈的体制转变的影响,例如备受瞩目的 NFT 铸造、流行空投或闪贷驱动的套利级联,这可以从根本上改变用户的估值分布。静态模型可能无法快速适应这些“黑天鹅”事件。
为了确保我们的机制实时保持稳健和最佳,我们引入了第二层学习:使用强化学习 (RL) 训练的 动态自适应策略。这种元学习者的工作不是直接生成菜单,而是 调整机制网络本身的参数 $\theta$ 以响应主要的需求冲击。
我们将此元学习任务构建为一个马尔可夫决策过程 (MDP),并建立在 AI 驱动的机制设计 的概念之上。
目标是训练策略网络 $\pi_\phi$ 以最大化随时间的累积折扣奖励。考虑到高维和连续的行动空间(权重 $\theta$),我们采用 近端策略优化 (PPO),这是一种最先进的策略梯度算法,以其稳定性和数据效率而闻名。
PPO 通过对策略网络 $\pi_\phi$ 进行增量更新来工作。在每个训练步骤中,它使用一个裁剪目标函数,该函数阻止对策略进行大的、剧烈的更改。这可以防止元学习者进行过于激进的更新,从而可能破坏手续费市场的稳定。相反,它学习对底层菜单生成逻辑进行平滑、受控的调整。
这种双层系统提供了两全其美的优势:
虽然我们未在此博客中发布结果,但社区需要一个清晰的配方来验证神经菜单拍卖。希望实施或复制我们的声明的研究人员应遵循以下说明。
标签 | 描述 |
---|---|
FPA | 传统的第一价格拍卖,使用未经修改的历史出价。 |
EIP-1559 | 重播历史基础费用演变;用户添加 2-gwei 小费。 |
静态菜单 | 离线训练的最佳菜单,权重已冻结。 |
深度神经菜单 | 由 $M_\theta$ 在线生成的菜单;PPO 元学习器已禁用以进行消融。 |
深度神经菜单 + RL | 具有在线 PPO 更新的完整模型。 |
部署像我们的机制网络这样计算密集型的模型,并在稍后使用第 7 节的方法对其进行验证,需要一种混合的链上/链下设计,以保留去中心化和去信任化的核心原则。
这种途径利用了链下计算的效率,同时使用链上密码学来维持去中心化协议必不可少的无需信任和可验证性。
区块链费用市场持续存在的挑战——波动性、超额支付和效率低下——不仅仅是工程问题;它们从根本上说是机制设计的问题。通过将 Gas 拍卖重新构想为直接、真实的神经菜单机制,我们可以从结构上解决这些问题。我们的方法将用户激励与协议目标对齐,消除了投机性的竞价猜测,并动态适应市场条件。
我们为统一三个不同领域(机制设计理论、深度学习和强化学习)提供的蓝图,为前进指明了方向;一旦执行了第 7 节的经验协议,社区将能够严格地衡量具体收益。通过继续弥合经济理论和前沿人工智能之间的差距,我们可以为更完美、去中心化的经济构建基础设施。
- 原文链接: github.com/thogiti/thogi...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!