超越队列 II：执行风险下的ADL作为在线控制

thogiti
发布于 6天前
阅读 17

本文深入探讨了自动去杠杆（ADL）机制，指出ADL的核心在于处理清算失败后产生的资金缺口。文章强调资金缺口本身是市场执行结果，并区分了实时估计的“所需预算”与事后计算的实际需求。文章分析了执行价格不确定性如何影响ADL的有效性，特别指出队列式分配规则在异构环境下可能因不连续性而放大执行风险，导致更大的跟踪误差。最后，从稳健控制的角度提出了ADL设计建议。

![beyond-queues-ii-hero](https://img.learnblockchain.cn/2026/02/25/ADL-beyond-queues-part-2-cover.png)

*注意：特别感谢[Tarun](https://x.com/tarunchitra)、[Victor](https://x.com/victatorships)和[Bunny](https://x.com/ConejoCapital)审阅本文并撰写关于ADL作为在线学习的短篇论文。*

在[超越队列（第一部分）](https://learnblockchain.cn/article/23420)中，我们大声说出了一个令人不安的事实：

ADL不是一个公平规则。它是**清算已经失败后**交易所所做的事情。

那篇文章是关于分配几何学、为什么存在队列（稀疏性）、为什么它们感觉暴力（不连续性）、为什么一旦惩罚尖峰就会出现按比例分配（凸性），以及为什么“仅限利润”是一个假装是口号的容量限制。

但有一个问题我们在第一部分中故意避开了，不是因为它不重要，而是因为它迫使我们对衡量方式保持精确。

> 当人们说“交易所需要X美元的ADL”时，到底衡量的是什么？

因为在理想世界中，“需要”是显而易见的：你按市价清算，赤字不存在，ADL从不触发。

在现实世界中，“需要”是一个由**执行**产生的不断变化的目标。

市场不会在你最需要的时候提供标记价格。它提供的是当所有人都试图从同一个门离开时，订单簿实际可以清除的价格。

因此，ADL的真实故事比队列与按比例分配更深一层：

**赤字本身就是执行结果。**

这就是为什么公平辩论总是结构性不稳定。人们争论我们如何分配短缺，同时悄悄地假设偿付能力要求是一个固定数字。在压力下，它并非如此。

本文是第二部分，因为它完成了论证。

第一部分是：*给定赤字，分配规则如何表现？*  
第二部分是：*当执行不确定时，赤字如何演变，如果你的目标是嘈杂的，那么“低遗憾”意味着什么？*

---

## 现有成果

自[第一部分]((https://thogiti.github.io/2026/01/18/understanding-auto-deleveraging-ADL.html))以来，我们收紧了测量层，并撰写了一篇短篇论文，将ADL重新定义为执行不确定性下的在线控制问题。本文是该升级的叙述版本：它解释了当清算在压力下的订单簿中执行时，“需要”意味着什么，以及如何在不通过预知来比较策略。你可以在以下链接中找到这些内容：
- [ADL作为在线学习/在线控制](https://arxiv.org/abs/2602.15182) 
- [ADL OSS 代码库](https://github.com/pluriholonomic/autodeleveraging-analysis) 
- [自动减仓：不可能性和优化 - 更新的完整论文](https://arxiv.org/abs/2512.01112)

你不需要阅读这些内容来理解本博客。但它们很重要，因为它们迫使我们诚实地面对什么被观察到，什么被估计，以及什么只能事后才知晓。

---

## 你将在这第二部分学到什么

我们将为ADL构建一个全新的心智模型，然后用它来重新解读旧的争论。

1.  **三种价格的现实。**  
    为什么不能仅凭标记/预言机价格来推断偿付能力，因为清算发生在压力下的实际执行价格。
2.  **使得故事其余部分易读的拆分。**  
    为什么我们必须将控制器实时瞄准的目标与我们在已实现的路径上事后计算的结果分开。
3.  **一个在“良好”转向下仍能存活的偿付能力追踪失败指标 $V_T$**  
    一个累积覆盖不足对象 $V_T$，它衡量你仍然错过了多少偿付能力要求，即使你的分配策略相对于其自身估计看起来是“最优”的。
4.  **为什么在执行不确定性下队列会变得脆弱**  
    集中度很重要。不稳定性也很重要。在异构性下，不连续性可以将小的横截面差异转化为波到波的制度转换，这直接导致跟踪误差。
5.  **设计要点**  
    如果ADL是执行不确定性下的控制，那么“良好的ADL设计”听起来就像鲁棒控制：稳定目标，避免悬崖（除非你明确需要稀疏性），并将执行估算视为一流问题。

在我们开始之前，我们将区分人们经常混淆的两个角色：

**控制：** 机制选择严重程度/分配行动。  
**估计：** 机制从压力执行中推断出“需要”是什么。

这就是关键。其他一切都是结果。

---

## 1. 悄然运行整个机制的三种价格

在[超越队列（第一部分）](https://learnblockchain.cn/article/23420)中，我们将赤字视为一个**已发生**的事情：一个必须被弥补的已实现亏空 $D \ge 0$。

这在会计上是正确的。

但如果我们要理解**为什么**会出现亏空，我们就必须停止假装存在一个“价格”。

在清算浪潮期间，有三种价格很重要。混淆这些对象是许多看起来是道德问题但实际上是定义问题的分歧的根源。

### 1.1 三种价格

对于压力波 $t$ 中给定头寸 $k$：

**标记/预言机价格** $p^{\mathrm{mark}}_{k,t}$。

这标识了**纸面权益**——在无摩擦世界中，该头寸“应该值多少钱”。

**破产转移价格** $p^{\mathrm{bk}}_{k,t}$。

这是清算引擎的会计边界：一条分界线，*如果你能在这里平仓*，账户大致以零权益结束。

**已实现清算执行价格** $p^{\mathrm{liq,exec}}_{k,t}(q)$。

这标识了**压力下的现金权益**：当每个人都试图离场时，你以 $q$ 的规模减少风险时实际获得的价格。

当实际执行在损失方向上越过破产边界时（多头与空头的不等式反转；逻辑相同），清算就失败了。这种差距是整个故事的关键。

将这种差距写为：

$$
\Delta p_{k,t}(q) := \bigl|p^{\mathrm{liq,exec}}_{k,t}(q) - p^{\mathrm{bk}}_{k,t}\bigr|.
$$

这个 $\Delta p$ 项不是一个四舍五入的误差。它只是市场告诉你一个简单的道理：

你试图在会计边界平仓，并支付了执行成本来离场。

在危机中，这些执行成本不再像稳定的费用表那样运作。它们变成了一个涌现的对象：深度、影响、部分成交、延迟和拥挤，所有这些都融为一体。

一旦你接受这一点，“需要多少”就不再是一个道德论证，而变成了一个测量问题。

### 1.2 单波段小插曲（一个微小的数值示例）

让我们来一个单账户的玩具波段。一个头寸，一个方向，一个人们不断犯的错误。

**设置（一次压力清算）：**

交易者**做多** $q = 100$ 份合约。  
破产边界是 $p^{\mathrm{bk}} = 100$。  
标记价格显示 $p^{\mathrm{mark}} = 101$（纸面上看，情况似乎……不那么灾难性）。  
在压力下，清算执行在 $p^{\mathrm{liq,exec}}_{t}(100) = 96$ 处平仓。

执行差距为：

$$
\Delta p(100) = |96 - 100| = 4.
$$

破产边界是一个会计承诺：“在这里平仓，你就平了。”执行结果是：“你实际上每份合约多付了四美元。”

因此，这次清算造成的实际短缺大约是：

$$
B^{\mathrm{needed}}_t \approx \Delta p(100)\cdot |q| = 4\cdot 100 = 400.
$$

这 $400$ 美元不是“交易所觉得需要拿走的ADL”。  
它是清算执行差于破产所造成的**现金亏空**。

现在，关键变得具体。

在决策时，机制在交易之前无法观察到 $p^{\mathrm{liq,exec}}_{t}(q)$。它带有一个执行模型并形成一个估计：

它估计 $\widehat{p}^{\mathrm{liq,exec}}_{t}(q)$，  
这会产生一个估计差距 $\Delta \widehat p(100)$，  
这会产生一个估计的“所需”预算 $\widehat B^{\mathrm{needed}}_t$。

假设系统估计执行将在 $99$ 处平仓：

$$
\Delta \widehat p(100) = |99 - 100| = 1,
\qquad
\widehat B^{\mathrm{needed}}_t = 1 \cdot 100 = 100.
$$

所以它选择的严重程度足以弥补它*认为*需要的：

$$
H_t = 100.
$$

但事后，世界揭示：

$$
B^{\mathrm{needed}}_t = 400.
$$

这一波的覆盖不足是：

$$
V_t = [B^{\mathrm{needed}}_t - H_t]_+ = [400 - 100]_+ = 300.
$$

这 $300$ 是第二部分的全部重点。

它在这里以最清晰的形式体现了“执行风险”：

- 你可以完美地选择一个分配规则，  
- 你可以相对于你估计的目标是“最优的”，  
- 但仍然因为清算执行比你的模型更严苛而错过偿付能力。

队列与按比例分配并没有造成这种差距。它们争论的是在差距造成亏空**之后**该怎么做。

后面有一个重要的转折：策略可以通过构成间接影响执行：谁被击中会改变清算足迹（市场、规模、相关性），这会改变实际影响。

我们稍后会回到反馈通道。现在，关键是一句话：

**标记价格标识纸面权益。执行价格标识现金权益。**

ADL存在于这个差距中。

### 1.3 “所需预算”不是一个道德数量

一旦你看到了这三种价格，“需要多少ADL”就变得精确了：

**事后所需** $B^{\mathrm{needed}}_t$ 由实际执行差距定义。

**事前所需** $\widehat B^{\mathrm{needed}}_t$ 是控制器可以实时瞄准的目标。

把这些合并成一个数字，你就可以根据你悄悄假设的执行情况，让任何机制看起来好或坏。

这就是为什么下一节是建模修正，而不是风格选择。

---

## 2. 建模修正：“需要”存在两次

有一个版本的“需要”你可以在波次**之后**从实际执行中计算出来。

有一个版本的“需要”交易所只能在交易进入波次**之前**估计。

### 2.1 事后“需要”（世界揭示了什么）

在清算已经产生实际成交后，我们可以在实际路径上计算实际的偿付能力要求：

$$
B_t^{\mathrm{needed}}.
$$

这是你在事后分析和回放式评估中使用的基准：保持实际路径不变，计算实际需要多少才能恢复偿付能力。

### 2.2 事前“需要”（控制器可以瞄准的目标）

在决策时，交易所尚未观察到 $B_t^{\mathrm{needed}}$，因为它取决于尚未发生的执行结果。

它拥有的是由执行模型和数量预测产生的估计：

$$
\widehat{B}_t^{\mathrm{needed}}.
$$

这产生了一个不可协商的规则：

你不能通过控制器是否达到一个在决策时无法观察到的目标来评估它。

![ADL生命周期：事件时间控制与事后基准（两遍回放）](https://img.learnblockchain.cn/2026/02/25/ADL-lifecycle.png)

---

## 3. 一句防止致命误解的话

**控制：** 机制选择严重程度/分配行动（例如 $x_t$，因此 $H_t=\mathbf{1}^\top x_t$）。

**估计：** 机制从压力执行中推断出“需要”是什么（因此 $\widehat B_t^{\mathrm{needed}}$）。

我们将 $H_t$ 称为严重程度（在波次 $t$ 中通过ADL转移的总金额）。

---

## 4. 失败是与事后基准的追踪误差

每波次，覆盖不足为：

$$
V_t = \big[B_t^{\mathrm{needed}} - H_t\big]_+.
$$

跨波次：

$$
V_T = \sum_{t=1}^T \big[B_t^{\mathrm{needed}} - H_t\big]_+.
$$

解释：

遗憾是关于你相对于比较类别的优化程度，考虑到你所瞄准的目标。

$V_T$ 是你因执行使得世界比你估计的更严苛而错过的偿付能力要求。

队列与按比例分配主要是分配几何学。  
$V_T$ 是操作者的目标：持续的偿付能力跟踪误差。

---

## 5. 唯一诚实的比较是回放

一种纪律听起来很无聊，但能让你免于错觉：

不要混淆合约空间行为与财富空间会计。

我们需要第二种同样必要的纪律：

不要混淆机制在决策时能够知道的，与我们事后能够计算的。

因为一旦你将两者混淆，你就可以“证明”任何你想要的东西。

这是人们在不注意的情况下陷入的陷阱。

尘埃落定后，我们可以计算出一个清晰的事后数字：在给定实际成交的清算后，该波次实际需要多少才能恢复偿付能力。称之为 $B_t^{\mathrm{needed}}$。

但当机制必须行动时，这个数字尚不存在作为可观察量。它只能使用执行模型、压力流动性猜测和部分信息形成一个估计 $\widehat B_t^{\mathrm{needed}}$。

所以我们做诚实的事情：

固定已实现的危机路径，并在同一场风暴中比较策略。在本文中，“回放”恰好意味着：执行路径保持固定；建模策略如何改变执行是一个独立的通道。

你获取实际事件（实际清算成交、实际滑点状态、相同的压力波），然后问：

如果我们应用了不同的ADL规则，更像队列、更像按比例分配、不同的上限，它会应用什么严重程度，这对于这条实际路径上的覆盖不足意味着什么？

这并不是声称规则控制了风暴。它是在询问它在实际经历的风暴中表现如何。

![ADL方法图：估计 → 策略 → 执行 → 基准 → 评估](https://img.learnblockchain.cn/2026/02/25/ADL-methods-diagram.png)

控制：选择严重程度/分配。

估计：从压力执行中推断出“需要”是什么。

---

## 6. 在线学习框架不是装饰。它是正确的对象。

一旦你接受“所需存在两次”，你就会被迫接受一种特定的世界观。

一个ADL波不是一个单一的会计转移。它是重复控制问题的一轮。

在时间 $t$，你选择一个分配向量 $x_t$（谁被击中以及被击中多少）。这个选择有一个执行的总金额：

$$
H_t := \mathbf{1}^\top x_t.
$$

在清算和平仓实际执行后，世界揭示了这一波次真正需要多少：

$$
B_t^{\mathrm{needed}}.
$$

重点不是交易所粗心大意。而是执行是一个潜在状态。市场通过打印成交为你计算它。

所以问题变成了：你的策略如何有效地追踪一个事后才揭示的偿付能力要求？

用通俗易懂的语言来说，这就是“部分可观察下的在线控制”。

---

## 7. 使失败来源清晰的分解

为了使分解变得清晰，我们还需要一个对象：一个代表机制在每个波次中试图做什么的损失函数。

一个清晰的替代（并且与“追踪偿付能力但避免极端集中”的直觉相符）是，对于 $x = x_t$：

$$
\ell_t(x, b)
=
\lambda_{\text{track}} \, \big|\mathbf{1}^\top x - b\big|
+
\lambda_{\text{fair}} \, \max_{i\in W_t}\frac{x_{i}}{u_{i,t}+\varepsilon}.
$$

像操作员一样解读它。

第一项表示：达到美元目标 $b$。  
第二项表示：不要将负担集中得如此之重，以至于单个账户承担了它所能承受的荒谬比例。

现在，第二部分的微妙之处在于：

- 真实目标是 $b = B_t^{\mathrm{needed}}$（事后），  
- 控制器只能访问估计目标 $b = \widehat B_t^{\mathrm{needed}}$（事前）。

所以实际上有两种损失：

$$
\ell_t(x) = \ell_t(x, B_t^{\mathrm{needed}}),
\qquad
\widehat{\ell}_t(x) = \ell_t(x, \widehat B_t^{\mathrm{needed}}).
$$

这种划分是整个游戏的重点。

### 一句话分解

[ADL作为在线学习](https://arxiv.org/abs/2602.15182)的关键结果可以写成：

$$
\sum_{t=1}^T \ell_t(x_t, B_t^{\mathrm{needed}})
\;\le\;
\min_{\pi'\in\mathcal{P}} \sum_{t=1}^T \ell_t(x_t^{\pi'}, B_t^{\mathrm{needed}})
\;+\;
\underbrace{\mathrm{Reg}_{\mathcal{P}}(T,\widehat{\ell})}_{\text{优化 / 控制误差}}
\;+\;
\underbrace{2\lambda_{\text{track}}\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|}_{\text{执行-估计误差}}.
$$

这个不等式有一个非常具体的作用。

它根据左侧的已实现基准来评估你的已实现行为。  
它将你与右侧比较类 $\mathcal P$ 中最佳可实现策略进行比较。  
然后它将差距分解为两个驱动因素：

-   **遗憾**：由于你的控制/优化不完善而造成的损失，*考虑到你所优化的估计目标*。
-   **执行-估计误差**：由于你瞄准的目标与世界后来揭示的目标之间存在偏差而造成的损失。

比较类别很重要。这里 $\mathcal P$ 意指可实现的策略，它们：

-   遵守相同的可行性约束和上限，
-   只使用决策时可用的信息，
-   主要在分配几何（优先级 vs 平滑、分层、上限）上有所不同。

对未来执行没有预知能力。

其含义简单而重要：

如果 $\big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|$ 保持较大，则针对 $\widehat{\ell}_t$ 的低遗憾并不能保证 $V_T$ 很小。

这种差距将“执行风险”变成了设计对象。

![分解：遗憾 + 执行-估计误差](https://img.learnblockchain.cn/2026/02/25/ecomposition-regret-execution-estimation-error.png)

![执行价格估计扩展：事前与事后基准以及诱导的失败项 V_T](https://img.learnblockchain.cn/2026/02/25/ADL-Execution-price-estimation-extension.png)

---

## 8. 一个简单的影响模型：流动性斜率 $\alpha_t$，以及为什么非平稳性是罪魁祸首

到目前为止，我们已经指出了即使控制器“良好”也可能保持较大的因素：

$$
2\lambda_{\text{track}}\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|.
$$

这就是执行-估计差距。它是结果中，即使有巧妙的分配也无法避免的部分。

现在我们需要解释是什么让它变得大，而不假装世界是平滑的。

所以我们采取了压力执行建模中的标准工程方法：

采用一个可处理的“执行随规模变差”模型，看看它意味着什么。

### 8.1 清算成本随规模呈二次方增长

当你清算时，你是在卖出到订单簿中。

一个局部线性影响模型将执行价格表示为：

$$
p^{\mathrm{liq,exec}}_t(q) \approx p^{\mathrm{mark}}_t \mp \alpha_t q,
$$

其中 $\alpha_t \ge 0$ 是一个简化的局部“退出宽度”斜率，它将深度、逆向选择和执行策略吸收到一个可处理的参数中。较大的 $\alpha_t$ 意味着门更窄。

现在，将价格影响转换为美元。

如果执行价格因 $\alpha_t q$ 的幅度对你不利，并且你执行了 $q$ 单位，那么美元损失大致按以下方式缩放：

$$
(\text{价格变动}) \times (\text{数量}) \sim (\alpha_t q)\cdot q = \alpha_t q^2.
$$

这就是 $\alpha_t$ 重要的全部原因：当规模很大时，它将“一点点更差的执行”转化为一个二次方的亏空。

因此，对于总清算规模为 $Q_t$ 的波次，将实际偿付能力要求写为：

$$
B_t^{\mathrm{needed}} = \alpha_t Q_t^2,
\qquad
\widehat{B}_t^{\mathrm{needed}} = \widehat{\alpha}_t Q_t^2.
$$

现在，差距变得残酷具体：

$$
\big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|
= Q_t^2\,\big|\alpha_t-\widehat{\alpha}_t\big|.
$$

如果 $Q_t \le Q$，那么：

$$
\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|
\le
Q^2 \sum_{t=1}^T \big|\alpha_t-\widehat{\alpha}_t\big|.
$$

所以问题归结为一句话：

> 你能追踪 $\alpha_t$ 的变化吗？

### 8.2 变异是危险的部分

许多人认为执行风险主要与压力水平有关。

这个模型指向别处。更深层次的危险是 $\alpha_t$ 在不同波次间的运动。

一条稳定但狭窄的道路是可学习的。一条每隔几秒钟就在“宽车道”和“单车道桥”之间切换的道路会产生持续的错误，即使有良好的转向规则。

这种交替强度由变异项捕获：

$$
P_{\alpha,T} = \sum_{t=2}^T |\alpha_t-\alpha_{t-1}|.
$$

将 $P_{\alpha,T}$ 视为：当控制器运行时，执行环境的制度转换有多剧烈。

在自然估计器下，累积斜率跟踪误差呈现以下形式：

$$
\sum_{t=1}^T |\widehat{\alpha}_t-\alpha_t|
\;\lesssim\;
C_1\,\alpha_{\max}\sqrt{T}
\;+\;
C_2\,P_{\alpha,T}.
$$

这个不等式在本文中只有一个作用：告诉你你所处的世界。

- 在稳定世界中，估计误差以 $\sqrt{T}$ 的形式累积。
- 在制度切换世界中，估计误差以 $P_{\alpha,T}$ 的形式累积。

如果 $P_{\alpha,T}$ 随 $T$ 线性增长，那么即使控制器相对于其自身估计做所有“正确”的事情，执行-估计项也会变成线性。

![流动性非平稳性：变异项驱动跟踪失败](https://img.learnblockchain.cn/2026/02/25/ADL-Liquidity-nonstationarity.png)

---

## 9. 为什么队列在执行风险下看起来特别糟糕：它们可以放大有效非平稳性

在[第一部分](https://learnblockchain.cn/article/23420)中，我们说队列是稀疏优化器：它们最小化“被触及账户的数量”，稀疏性会造成不连续性。

这已经解释了为什么队列感觉暴力。

执行风险增加了第二个脆弱性：在异构性下，不连续策略会使有效执行制度在波次之间更难追踪。

机制不仅仅是“谁支付”。它是“谁支付”加上“市场必须吸收的清算足迹”一波又一波。

### 9.1 异质性：不同账户以不同方式平仓

账户并非完全相同的权益包。

它们在清算执行方面存在差异：

- 规模和集中度，  
- 其头寸所在的市场，  
- 其平仓压力与所有其他账户的相关性，  
- 其平仓如何映射到深度和影响。

编码这一点的一个最小方式是：每个候选账户 $i$ 都有其自身的有效清算斜率 $\alpha_i$。

现在是关键一步：

一个波次的有效执行严苛程度取决于你平仓哪些账户以及平仓多少。

一个方便的定义是加权平均：

$$
\bar{\alpha}_t(\pi)
:=
\frac{\sum_{i\in W_t}\alpha_i\, q_{i,t}(\pi)^2}{\sum_{i\in W_t} q_{i,t}(\pi)^2}.
$$

将其理解为：

当你主要平仓难以平仓的账户时，这一轮感觉严苛；当你主要平仓容易平仓的账户时，它感觉温和。

二次方权重出现是因为成本是二次方的。

### 9.2 不连续性将异质性转化为制度转换

队列选择一个极点。分数中的微小扰动可能会改变哪些账户被边缘触及。

当 $\alpha_i$ 异质时，这些成员资格的翻转可以翻转 $\bar{\alpha}_t$。

这直接将你推向危险状态：高变异，

$$
P_{\bar{\alpha},T} = \sum_{t=2}^T |\bar{\alpha}_t-\bar{\alpha}_{t-1}|.
$$

平滑混合策略在每个波次中对异质账户进行平均。这并没有使执行变得容易，但它使有效环境的变化更加渐进。

渐进组合正是使得 $\alpha_t$ 可追踪的原因。

有关下方图表的更多背景信息，请参阅我们的短篇论文，[ADL作为在线学习（2026年2月）](https://arxiv.org/abs/2602.15182)。

![队列稳定性诊断：相邻轮次单调性违规](https://img.learnblockchain.cn/2026/02/25/13_monotonicity_violations_by_policy.png)

![队列稳定性诊断：相邻轮次排名稳定性违规](https://img.learnblockchain.cn/2026/02/25/14_queue_rank_stability_by_policy.png)

### 9.3 范围声明

我们并非声称队列总是在所有市场微观结构中恶化执行。

我们声称的是一个更狭窄的观点：

在异构性和不连续性下，类队列规则可能导致有效执行严苛程度在波次间产生更大的波动，这会增加跟踪误差，而正是这个误差项主导了偿付能力的缺失。

---

## 10. 回到船上：为什么噪声下的脆弱性会变成偿付能力风险

让我们暂时回到甲板上，因为这部分虽然数学正确，但人类大脑仍然无法**感受**到它。

之前，船的故事是关于谁被抛下水。

队列抛出几个集装箱。按比例分配则在许多集装箱上减重。人们争论船长是否残忍。

第二部分是关于更具操作性的事情：

当你抛掷时，海洋本身正在变化。

缺失的状态变量是执行环境：当你试图降低风险时，出口有多窄。

我们给这个出口宽度一个名字：$\alpha_t$。

小的 $\alpha_t$ 意味着门很宽。大的 $\alpha_t$ 意味着每单位规模都会造成损失。

现在将它与控制器正在做的事情联系起来。

### 10.1 控制器瞄准一个移动的偿付能力要求

在每个波次 $t$ 中，交易所从精神上做一件简单的事情：

1.  估计亏空会有多大，  
2.  应用严重程度来弥补它，  
3.  重复直到船恢复平衡。

偿付能力要求是：

$$
B_t^{\mathrm{needed}} = \alpha_t Q_t^2,
$$

估计值是：

$$
\widehat{B}_t^{\mathrm{needed}} = \widehat{\alpha}_t Q_t^2.
$$

所以“非平稳性”的实际含义是：

你的目标移动了，因为 $\alpha_t$ 移动了。

这就是为什么你可能是一个优秀的控制器，但仍然会错失。转向可能很灵敏，但跑道却一直在滑动。

### 10.2 为什么队列是特殊的：微小的噪声可能导致大的组成翻转

队列是不连续的。一个硬阈值将“小的状态噪声”转化为“成员资格变化”。

一个基础点的分数。一个平局打破。一个舍入的边缘情况。一个小的重新排序。这些都可以改变谁被击中。

在平滑策略中，这些扰动只会稍微改变分配。

在队列策略中，这些扰动可以极大地改变分配。

在异构性下，这些翻转会改变组成。组成改变了系统隐式体验的有效 $\bar{\alpha}_t$。然后你的“所需”预算再次移动。

所以动态链是：

不连续性 + 异构性 $\rightarrow$ $\bar{\alpha}_t$ 中更高的变异 $\rightarrow$ 更大的执行-估计误差 $\rightarrow$ 更大的跟踪缺失 $V_T$。

### 10.3 为什么队列辩论感觉被诅咒

许多在线争论将队列视为纯粹的分配选择：谁支付。

执行风险迫使我们提出第二个问题：你试图达到的目标有多稳定？

现在，两个观察者都可以是正确的，但仍然无法互相理解：

-   分配规则是预先宣布的，所以它是公平的。
-   系统不断出错和重新命中，所以它感觉是任意的。

如果机制生活在一个高变异状态，其中执行目标移动速度快于估计可以追踪的速度，那么两者都可能是真的。

### 10.4 一个微小的重构让后续章节变得清晰

到目前为止，我们已经建立了一个栈：

-   **[第一部分](https://learnblockchain.cn/article/23420)：** 分配几何学（稀疏性 vs 平滑性，不连续性 vs 可预测性）。
-   **第二部分：** 执行不确定性使目标变得嘈杂；变异驱动跟踪失败。

现在我们准备好进行经济学家总是提出的理智检查了：

这些是否与行为相关，或者我们是否在为对抗性幽灵而设计？

---

## 11. 行为现实检验

早些时候，我们审视了ADL期间的行为，发现了一些应该让机制设计者稍微放松的事情：

大多数市场参与者并没有试图在危机中智胜ADL规则。

这并非因为交易者都是圣人，而是因为清算浪潮不是进行聪明计划的好时机。延迟高，价差大，风险波动，生存是主要目标。

这个经验事实在第二部分比在第一部分更重要。

一旦你接受大多数参与者并没有积极地进行博弈，一个设计优先级就变得不容忽视：

**可预测性胜过聪明。**

### 11.1 为什么“策略性撤销”不是真正的反派

很容易讲一个令人满意故事：

惩罚那些频繁翻转头寸的人；惩罚那些大量撤销操作的人。

第一部分（和代码库）中的经验总结打破了这种捷径。

撤销强度通常是对压力的反应。  
外部性由清算足迹和执行差价驱动。

这些是不同的维度。

一个账户可能看起来很安静，但平仓成本却很高。

一个账户可能看起来很烦人，但却不是偿付能力缺口的主要贡献者。

### 11.2 与非平稳性的联系

变异是危险的，因为它是一个操作员问题，而不是一个对手方问题。

如果 $\alpha_t$ 因为市场波动而剧烈变化，你的估计器正在风暴中追踪一个移动的目标。即使没有人进行博弈，这也很困难。

因此，行为学结论是：

即使在战略操纵极少的世界中，追踪失败也可能发生。

对制度切换的鲁棒性不是一个边缘案例特性。它是主要事件。

---

## 12. 这项技术能实现什么：不作弊的策略比较

一旦你诚实地进行了拆分：

- 事前：$\widehat{B}_t^{\mathrm{needed}}$，  
- 事后：$B_t^{\mathrm{needed}}$，

你终于可以在同一条已实现的危机路径上比较策略，而不会暗中引入预知。

回放式评估变得清晰且无可辩驳。

### 12.1 这里“同类比较”的含义

取一个实际发生的ADL事件：

- 实际的清算成交，  
- 实际的滑点制度，  
- 实际的压力波序列。

现在，对于每个候选策略 $\pi$（类队列、平滑混合、分层上限等）：

在相同的信息约束下，逐波计算行动 $x_t^\pi$，  
计算 $H_t^\pi = \mathbf{1}^\top x_t^\pi$，  
根据相同的**事后**基准 $B_t^{\mathrm{needed}}$ 进行评估。

你是在同一场风暴中比较转向规则。

### 12.2 当执行成为头等问题时会发生什么变化

第一部分提供了分配形状的词汇。

第二部分提供了失败来源的词汇。

第7节的分解分开了：

- 基线：$\mathcal P$ 内部的最佳事后表现，  
- 可控：遗憾，  
- 潜在状态：执行-估计误差。

一旦你看到这三点，你就不再问一个问题（“规则公平吗？”），而是开始问那些推动前沿的问题：

$\mathcal P$ 是否可实现且不具有预知能力？  
我们是被遗憾主导，还是被执行-估计误差主导？  
我们是在稳定状态下运作，还是在鲁棒性主导的高变异状态下运作？

请参阅我们的[短篇论文](https://arxiv.arxiv.org/abs/2602.15182)以获取下方图表的更多背景信息。

![经验回放结果：每波次生产队列与优化策略（超调/遗憾）](https://img.learnblockchain.cn/2026/02/25/05_policy_per_wave_performance.png)

![经验回放结果：累积生产队列与优化策略（超调/遗憾）](https://img.learnblockchain.cn/2026/02/25/06_policy_per_wave_cumulative_overshoot.png)

---

## 13. 设计启示：鲁棒控制，而非叙事

如果你接受第二部分模型，ADL设计就开始看起来像危机工程。

评估纪律首先重要：你根据实际路径上的事后基准进行比较。

然后设计工作清晰地分开：

- 减少遗憾（在 $\mathcal P$ 内部进行更好的控制），  
- 减少执行-估计误差（更好地测量/估计“所需”会是什么）。

### 13.1 稳定你试图命中的目标

如果 $B_t^{\mathrm{needed}}$ 是由执行差价产生的，那么机制必须将执行视为系统的一部分。

这并不意味着要完美预测市场。它的意思是：

- 维护一个明确的执行模型，  
- 在制度转变时更新它，  
- 避免那些使有效环境更难追踪的策略。

用符号表示，你试图缩小的项是：

$$
\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|
\approx
Q^2 \sum_{t=1}^T \big|\alpha_t-\widehat{\alpha}_t\big|.
$$

任何能减少有效变异的东西都会直接有所帮助。

### 13.2 平滑性是鲁棒性的默认设置

我们解释了队列的来源：稀疏性和操作直觉。

这篇博客文章增加了一个更具操作性的后果：不连续性会放大有效执行环境中的变异。

所以默认的平滑混合不是道德偏好。它是一种控制偏好。

如果你选择队列策略，你应该睁大眼睛：

你正在购买稀疏性和速度，  
你可能正在为漂移状态下的敏感性付出代价。

### 13.3 如果你想要优先级结构，请软化断崖

优先级可以是真实的，而无需成为硬性阶跃函数。

鲁棒的折衷方案包括：

- 分层桶，层内平滑，  
- 防止一步断崖的上限，  
- 在边界附近随机打破平局，  
- 阻尼（除非信号强烈，否则不要在波次间激进地重新排名）。

这些是防止小错误变成大的构成翻转的方法。

### 13.4 明确比较类别

相对于什么感到遗憾？

如果 $\mathcal P$ 不明确，“遗憾”就变成了一个空壳游戏：选择一个弱的比较器并宣布胜利。

一个清晰的选择是：

$\mathcal P$ = 遵守相同可行性约束和上限、只使用决策时信息、主要在分配几何上有所不同并保留相同优先语义的策略。

那么“低遗憾”就成为一句有意义的话：在你实际可以推出的系列中，你是否转向得很好？

### 13.5 未来衡量什么

如果你希望本系列能够转化为操作诊断，那么三个对象应该出现在事后分析仪表板上：

1) 偿付能力追踪误差 $V_T$  
2) 执行制度变异 $P_{\alpha,T}$（或其替代品）  
3) 策略稳定性（脆弱性/不连续性替代品）

这三者让你能够诊断事件是由转向误差主导，还是由目标漂移主导。

---
## 14. 总结：第二部分之后“更好的ADL”意味着什么

第一部分将赤字视为既定事实并提出问题：一旦出现亏空，每种分配几何学意味着什么？
第二部分补充了缺失的状态变量：亏空本身就是执行结果。在压力下，“需要”不是一个固定的标量：它是由实际清算执行事后揭示的，而控制器只能实时瞄准一个估计值。

这种拆分改变了“更好的ADL”的含义。正确的问题不再是“你喜欢哪个公平规则？”，而是：

* 我们是否根据事后回放基准评估策略，
* 我们是否将 $\widehat{B}_t^{\mathrm{needed}}$ 视为可能漂移的估计值，以及
* 我们的策略是否使有效执行环境足够稳定，以至于可学习？

从这个意义上说，ADL最好被视为执行不确定性下的在线控制。

---

## 15. 生产级ADL设计菜单，现在我们承认执行是机制的一部分

第一部分以分配形状的菜单结束：需要稀疏性时用队列，需要平滑性时用按比例分配，需要承诺通过构造实现时用高级分类账。

第二部分强制升级：

一个机制是分配**加上**定义在压力执行下“需要”意味着什么的测量层，因此这些最好被解读为在状态噪声敏感性、操作复杂性和暴露可预测性方面具有不同权衡的策略体系。

因此，这个菜单描述了交易所实际可以推出的三种原型，三种在波次中表现的方式，每种都有其物理故事、失败模式以及与现在主导的项的关系：

$$
\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|.
$$

如果你在阅读本节时脑中只有一个问题，请使用这个：

这种设计是让执行环境更容易学习，还是会造成估计器无法跟上的波到波切换？

### 15.1 设计A：队列优先分流（稀疏、果断、脆弱）

**它对自己讲述的故事。**

危机不是研讨会。快速恢复偿付能力，尽可能少地触及账户，最小化操作表面积。选择一个优先级规则，并击中顶部直到预算覆盖。

**它优化了什么。**

它最小化了被触及账户的数量（稀疏性）。第一部分的骨架是：

$$
\min \#\{i : h_i > 0\}
\quad \text{s.t.}
\quad
0\le h_i\le c_i,
\sum_i h_i \ge B.
$$

这个目标编码了操作者的直觉：更少的状态转换，更少的争议，更少在波次中间卡住的机会。

**它在哪里失效。**

脆弱性表现为成员资格的翻转。在异构性下，这些翻转改变了构成，而构成改变了系统所经历的有效执行严苛程度。这可能增加变异性，使目标更难追踪。

**何时仍是正确的选择。**

当操作延迟占主导地位时，当合格集合本来就很小，或者当市场足够混乱以至于广泛传播状态变化会造成次要操作失败时。在这些情况下，工作就是生存。

### 15.2 设计B：平滑混合控制器（按比例分配/镜像梯度下降式）

**它对自己讲述的故事。**

使机制稳定且可预测。追踪偿付能力，同时避免极端集中。

**它优化了什么。**

你可以将其建模为在满足目标约束下最小化一个凸的“痛苦”函数：

$$
\min_h \sum_i \phi\left(\frac{h_i}{c_i}\right)
\quad
\text{s.t. } 0\le h_i\le c_i,
\sum_i h_i = B,
$$

或者作为第7节中替代损失的镜像梯度下降更新。

凸性惩罚尖峰。惩罚尖峰会产生平滑的分配。

**为什么它在执行不确定性下有帮助。**

状态的微小变化只会导致行动的微小变化。这倾向于防止构成剧烈波动。当构成逐渐变化时，有效环境更容易追踪。

**它在哪里失效。**

当触及许多账户会造成操作失败（超时、争议、延迟反馈）时。许多交易所出于操作原因而非意识形态避免纯粹的按比例分配。

### 15.3 设计C：分层优先级 + 层内平滑（“诚实承诺”架构）

这种设计与用户认为“仅限利润”的含义相符。它仅在优先级是状态而非故事时才有效。

**它对自己讲述的故事。**

首先从初级资本中提取（利润桶），只有在可行性强制时才向上攀升。在每个层级内平滑分配。

**它看起来像什么。**

为每个账户维护明确的桶：$g_i^{(1)}, g_i^{(2)},\dots$（从初级到高级的利润），然后是本金 $p_i$。

对于波次预算 $B$，计算层级容量：

$$
C^{(m)}=\sum_i g_i^{(m)}.
$$

按顺序耗尽层级：

从第1层取 $B^{(1)}=\min(B, C^{(1)})$，
然后从第2层取 $B^{(2)}=\min(B-B^{(1)}, C^{(2)})$，以此类推。

在每个层级内，使用平滑规则进行分配。

**为什么第二部分喜欢它。**

它稳定了意义（没有代理神话）并在层级内稳定了控制（更少的断崖）。

**它在哪里失效。**

在可行性上。如果赤字超过初级容量，不等式会强制你向上。

---

## 16. 总结：第一部分 + 第二部分之后“更好的ADL”意味着什么

第一部分是几何学：队列购买稀疏性并创建不连续性；一旦惩罚尖峰就会出现平滑规则；“仅限利润”是穿着口号的可行性。
第二部分补充了缺失的状态变量：执行。控制器使用 $\widehat{B}_t^{\mathrm{needed}}$ 选择严重程度，而世界通过实际清算成交揭示 $B_t^{\mathrm{needed}}$。

因此，“更好的ADL”具有具体的含义：

1.  **明确的测量。** 通过构造将 $\widehat{B}_t^{\mathrm{needed}}$（事前目标）和 $B_t^{\mathrm{needed}}$（事后回放基准）分开。
2.  **执行是机制的一部分。** 根据实际路径评估策略；跟踪 $V_T$，而不仅仅是估计目标下的“最优性”。
3.  **默认的稳定性。** 偏爱在微小状态噪声下行动平稳的机制，除非你明确选择稀疏性以实现操作生存。
4.  **诚实的承诺。** 如果你想要优先级语义（“赢利优先”），请将其表示为状态，而不是可重置的代理。

### 真正的成功标准

一个成熟的交易者能否在不猜测以下情况的前提下，推断出最坏情况下的ADL敞口：
1.  “需要”是事前还是事后，
2.  执行假设是否在波次中间漂移，或
3.  不连续性是否会在微小扰动下翻转敞口？

可预测性是机制的风险溢价。市场可以为损失定价；它们难以对任意性定价。

---

## 参考文献

- [超越队列（第一部分）：从第一性原理理解自动减仓](https://learnblockchain.cn/article/23420)
- [X.com 关于超越队列第一部分的文章](https://x.com/0xnagu/status/2013352324996194375)
- [ADL作为在线学习（2026年2月）](https://arxiv.org/abs/2602.15182)
- [自动减仓：不可能性和优化 - 更新的完整论文](https://arxiv.org/abs/2512.01112)
- [ADL修正报告](https://github.com/pluriholonomic/autodeleveraging-analysis)

>- 原文链接： [github.com/thogiti/thogi...](https://github.com/thogiti/thogiti.github.io/blob/master/_posts/2026-02-18-adl-online-learning.md)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

注意：特别感谢Tarun、Victor和Bunny审阅本文并撰写关于ADL作为在线学习的短篇论文。

在超越队列（第一部分）中，我们大声说出了一个令人不安的事实：

ADL不是一个公平规则。它是清算已经失败后交易所所做的事情。

但有一个问题我们在第一部分中故意避开了，不是因为它不重要，而是因为它迫使我们对衡量方式保持精确。

当人们说“交易所需要X美元的ADL”时，到底衡量的是什么？

因为在理想世界中，“需要”是显而易见的：你按市价清算，赤字不存在，ADL从不触发。

在现实世界中，“需要”是一个由执行产生的不断变化的目标。

市场不会在你最需要的时候提供标记价格。它提供的是当所有人都试图从同一个门离开时，订单簿实际可以清除的价格。

因此，ADL的真实故事比队列与按比例分配更深一层：

赤字本身就是执行结果。

这就是为什么公平辩论总是结构性不稳定。人们争论我们如何分配短缺，同时悄悄地假设偿付能力要求是一个固定数字。在压力下，它并非如此。

本文是第二部分，因为它完成了论证。

第一部分是：给定赤字，分配规则如何表现？
第二部分是：当执行不确定时，赤字如何演变，如果你的目标是嘈杂的，那么“低遗憾”意味着什么？

现有成果

自第一部分以来，我们收紧了测量层，并撰写了一篇短篇论文，将ADL重新定义为执行不确定性下的在线控制问题。本文是该升级的叙述版本：它解释了当清算在压力下的订单簿中执行时，“需要”意味着什么，以及如何在不通过预知来比较策略。你可以在以下链接中找到这些内容：

你不需要阅读这些内容来理解本博客。但它们很重要，因为它们迫使我们诚实地面对什么被观察到，什么被估计，以及什么只能事后才知晓。

你将在这第二部分学到什么

我们将为ADL构建一个全新的心智模型，然后用它来重新解读旧的争论。

三种价格的现实。
为什么不能仅凭标记/预言机价格来推断偿付能力，因为清算发生在压力下的实际执行价格。
使得故事其余部分易读的拆分。
为什么我们必须将控制器实时瞄准的目标与我们在已实现的路径上事后计算的结果分开。
一个在“良好”转向下仍能存活的偿付能力追踪失败指标 $V_T$
一个累积覆盖不足对象 $V_T$，它衡量你仍然错过了多少偿付能力要求，即使你的分配策略相对于其自身估计看起来是“最优”的。
为什么在执行不确定性下队列会变得脆弱
集中度很重要。不稳定性也很重要。在异构性下，不连续性可以将小的横截面差异转化为波到波的制度转换，这直接导致跟踪误差。
设计要点
如果ADL是执行不确定性下的控制，那么“良好的ADL设计”听起来就像鲁棒控制：稳定目标，避免悬崖（除非你明确需要稀疏性），并将执行估算视为一流问题。

在我们开始之前，我们将区分人们经常混淆的两个角色：

控制： 机制选择严重程度/分配行动。
估计： 机制从压力执行中推断出“需要”是什么。

这就是关键。其他一切都是结果。

1. 悄然运行整个机制的三种价格

在超越队列（第一部分）中，我们将赤字视为一个已发生的事情：一个必须被弥补的已实现亏空 $D \ge 0$。

这在会计上是正确的。

但如果我们要理解为什么会出现亏空，我们就必须停止假装存在一个“价格”。

在清算浪潮期间，有三种价格很重要。混淆这些对象是许多看起来是道德问题但实际上是定义问题的分歧的根源。

1.1 三种价格

对于压力波 $t$ 中给定头寸 $k$：

标记/预言机价格 $p^{\mathrm{mark}}_{k,t}$。

这标识了纸面权益——在无摩擦世界中，该头寸“应该值多少钱”。

破产转移价格 $p^{\mathrm{bk}}_{k,t}$。

这是清算引擎的会计边界：一条分界线，如果你能在这里平仓，账户大致以零权益结束。

已实现清算执行价格 $p^{\mathrm{liq,exec}}_{k,t}(q)$。

这标识了压力下的现金权益：当每个人都试图离场时，你以 $q$ 的规模减少风险时实际获得的价格。

当实际执行在损失方向上越过破产边界时（多头与空头的不等式反转；逻辑相同），清算就失败了。这种差距是整个故事的关键。

将这种差距写为：

$$ \Delta p{k,t}(q) := \bigl|p^{\mathrm{liq,exec}}{k,t}(q) - p^{\mathrm{bk}}_{k,t}\bigr|. $$

这个 $\Delta p$ 项不是一个四舍五入的误差。它只是市场告诉你一个简单的道理：

你试图在会计边界平仓，并支付了执行成本来离场。

在危机中，这些执行成本不再像稳定的费用表那样运作。它们变成了一个涌现的对象：深度、影响、部分成交、延迟和拥挤，所有这些都融为一体。

一旦你接受这一点，“需要多少”就不再是一个道德论证，而变成了一个测量问题。

1.2 单波段小插曲（一个微小的数值示例）

让我们来一个单账户的玩具波段。一个头寸，一个方向，一个人们不断犯的错误。

设置（一次压力清算）：

交易者做多 $q = 100$ 份合约。
破产边界是 $p^{\mathrm{bk}} = 100$。
标记价格显示 $p^{\mathrm{mark}} = 101$（纸面上看，情况似乎……不那么灾难性）。
在压力下，清算执行在 $p^{\mathrm{liq,exec}}_{t}(100) = 96$ 处平仓。

执行差距为：

$$ \Delta p(100) = |96 - 100| = 4. $$

破产边界是一个会计承诺：“在这里平仓，你就平了。”执行结果是：“你实际上每份合约多付了四美元。”

因此，这次清算造成的实际短缺大约是：

$$ B^{\mathrm{needed}}_t \approx \Delta p(100)\cdot |q| = 4\cdot 100 = 400. $$

这 $400$ 美元不是“交易所觉得需要拿走的ADL”。
它是清算执行差于破产所造成的现金亏空。

现在，关键变得具体。

在决策时，机制在交易之前无法观察到 $p^{\mathrm{liq,exec}}_{t}(q)$。它带有一个执行模型并形成一个估计：

它估计 $\widehat{p}^{\mathrm{liq,exec}}_{t}(q)$，
这会产生一个估计差距 $\Delta \widehat p(100)$，
这会产生一个估计的“所需”预算 $\widehat B^{\mathrm{needed}}_t$。

假设系统估计执行将在 $99$ 处平仓：

$$ \Delta \widehat p(100) = |99 - 100| = 1, \qquad \widehat B^{\mathrm{needed}}_t = 1 \cdot 100 = 100. $$

所以它选择的严重程度足以弥补它认为需要的：

$$ H_t = 100. $$

但事后，世界揭示：

$$ B^{\mathrm{needed}}_t = 400. $$

这一波的覆盖不足是：

$$ V_t = [B^{\mathrm{needed}}_t - Ht]+ = [400 - 100]_+ = 300. $$

这 $300$ 是第二部分的全部重点。

它在这里以最清晰的形式体现了“执行风险”：

你可以完美地选择一个分配规则，
你可以相对于你估计的目标是“最优的”，
但仍然因为清算执行比你的模型更严苛而错过偿付能力。

队列与按比例分配并没有造成这种差距。它们争论的是在差距造成亏空之后该怎么做。

后面有一个重要的转折：策略可以通过构成间接影响执行：谁被击中会改变清算足迹（市场、规模、相关性），这会改变实际影响。

我们稍后会回到反馈通道。现在，关键是一句话：

标记价格标识纸面权益。执行价格标识现金权益。

ADL存在于这个差距中。

1.3 “所需预算”不是一个道德数量

一旦你看到了这三种价格，“需要多少ADL”就变得精确了：

事后所需 $B^{\mathrm{needed}}_t$ 由实际执行差距定义。

事前所需 $\widehat B^{\mathrm{needed}}_t$ 是控制器可以实时瞄准的目标。

把这些合并成一个数字，你就可以根据你悄悄假设的执行情况，让任何机制看起来好或坏。

这就是为什么下一节是建模修正，而不是风格选择。

2. 建模修正：“需要”存在两次

有一个版本的“需要”你可以在波次之后从实际执行中计算出来。

有一个版本的“需要”交易所只能在交易进入波次之前估计。

2.1 事后“需要”（世界揭示了什么）

在清算已经产生实际成交后，我们可以在实际路径上计算实际的偿付能力要求：

$$ B_t^{\mathrm{needed}}. $$

这是你在事后分析和回放式评估中使用的基准：保持实际路径不变，计算实际需要多少才能恢复偿付能力。

2.2 事前“需要”（控制器可以瞄准的目标）

在决策时，交易所尚未观察到 $B_t^{\mathrm{needed}}$，因为它取决于尚未发生的执行结果。

它拥有的是由执行模型和数量预测产生的估计：

$$ \widehat{B}_t^{\mathrm{needed}}. $$

这产生了一个不可协商的规则：

你不能通过控制器是否达到一个在决策时无法观察到的目标来评估它。

3. 一句防止致命误解的话

控制： 机制选择严重程度/分配行动（例如 $x_t$，因此 $H_t=\mathbf{1}^\top x_t$）。

估计： 机制从压力执行中推断出“需要”是什么（因此 $\widehat B_t^{\mathrm{needed}}$）。

我们将 $H_t$ 称为严重程度（在波次 $t$ 中通过ADL转移的总金额）。

4. 失败是与事后基准的追踪误差

每波次，覆盖不足为：

$$ V_t = \big[B_t^{\mathrm{needed}} - Ht\big]+. $$

跨波次：

$$ VT = \sum{t=1}^T \big[B_t^{\mathrm{needed}} - Ht\big]+. $$

解释：

遗憾是关于你相对于比较类别的优化程度，考虑到你所瞄准的目标。

$V_T$ 是你因执行使得世界比你估计的更严苛而错过的偿付能力要求。

队列与按比例分配主要是分配几何学。
$V_T$ 是操作者的目标：持续的偿付能力跟踪误差。

5. 唯一诚实的比较是回放

一种纪律听起来很无聊，但能让你免于错觉：

不要混淆合约空间行为与财富空间会计。

我们需要第二种同样必要的纪律：

不要混淆机制在决策时能够知道的，与我们事后能够计算的。

因为一旦你将两者混淆，你就可以“证明”任何你想要的东西。

这是人们在不注意的情况下陷入的陷阱。

尘埃落定后，我们可以计算出一个清晰的事后数字：在给定实际成交的清算后，该波次实际需要多少才能恢复偿付能力。称之为 $B_t^{\mathrm{needed}}$。

但当机制必须行动时，这个数字尚不存在作为可观察量。它只能使用执行模型、压力流动性猜测和部分信息形成一个估计 $\widehat B_t^{\mathrm{needed}}$。

所以我们做诚实的事情：

你获取实际事件（实际清算成交、实际滑点状态、相同的压力波），然后问：

如果我们应用了不同的ADL规则，更像队列、更像按比例分配、不同的上限，它会应用什么严重程度，这对于这条实际路径上的覆盖不足意味着什么？

这并不是声称规则控制了风暴。它是在询问它在实际经历的风暴中表现如何。

控制：选择严重程度/分配。

估计：从压力执行中推断出“需要”是什么。

6. 在线学习框架不是装饰。它是正确的对象。

一旦你接受“所需存在两次”，你就会被迫接受一种特定的世界观。

一个ADL波不是一个单一的会计转移。它是重复控制问题的一轮。

在时间 $t$，你选择一个分配向量 $x_t$（谁被击中以及被击中多少）。这个选择有一个执行的总金额：

$$ H_t := \mathbf{1}^\top x_t. $$

在清算和平仓实际执行后，世界揭示了这一波次真正需要多少：

$$ B_t^{\mathrm{needed}}. $$

重点不是交易所粗心大意。而是执行是一个潜在状态。市场通过打印成交为你计算它。

所以问题变成了：你的策略如何有效地追踪一个事后才揭示的偿付能力要求？

用通俗易懂的语言来说，这就是“部分可观察下的在线控制”。

7. 使失败来源清晰的分解

为了使分解变得清晰，我们还需要一个对象：一个代表机制在每个波次中试图做什么的损失函数。

一个清晰的替代（并且与“追踪偿付能力但避免极端集中”的直觉相符）是，对于 $x = x_t$：

$$ \ell_t(x, b)

\lambda{\text{track}} \, \big|\mathbf{1}^\top x - b\big| + \lambda{\text{fair}} \, \max_{i\in Wt}\frac{x{i}}{u_{i,t}+\varepsilon}. $$

像操作员一样解读它。

第一项表示：达到美元目标 $b$。
第二项表示：不要将负担集中得如此之重，以至于单个账户承担了它所能承受的荒谬比例。

现在，第二部分的微妙之处在于：

真实目标是 $b = B_t^{\mathrm{needed}}$（事后），
控制器只能访问估计目标 $b = \widehat B_t^{\mathrm{needed}}$（事前）。

所以实际上有两种损失：

$$ \ell_t(x) = \ell_t(x, B_t^{\mathrm{needed}}), \qquad \widehat{\ell}_t(x) = \ell_t(x, \widehat B_t^{\mathrm{needed}}). $$

这种划分是整个游戏的重点。

一句话分解

ADL作为在线学习的关键结果可以写成：

$$ \sum_{t=1}^T \ell_t(x_t, Bt^{\mathrm{needed}}) \;\le\; \min{\pi'\in\mathcal{P}} \sum_{t=1}^T \ell_t(x_t^{\pi'}, Bt^{\mathrm{needed}}) \;+\; \underbrace{\mathrm{Reg}{\mathcal{P}}(T,\widehat{\ell})}{\text{优化 / 控制误差}} \;+\; \underbrace{2\lambda{\text{track}}\sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}t^{\mathrm{needed}}\big|}{\text{执行-估计误差}}. $$

这个不等式有一个非常具体的作用。

它根据左侧的已实现基准来评估你的已实现行为。
它将你与右侧比较类 $\mathcal P$ 中最佳可实现策略进行比较。
然后它将差距分解为两个驱动因素：

遗憾：由于你的控制/优化不完善而造成的损失，考虑到你所优化的估计目标。
执行-估计误差：由于你瞄准的目标与世界后来揭示的目标之间存在偏差而造成的损失。

比较类别很重要。这里 $\mathcal P$ 意指可实现的策略，它们：

遵守相同的可行性约束和上限，
只使用决策时可用的信息，
主要在分配几何（优先级 vs 平滑、分层、上限）上有所不同。

对未来执行没有预知能力。

其含义简单而重要：

如果 $\big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|$ 保持较大，则针对 $\widehat{\ell}_t$ 的低遗憾并不能保证 $V_T$ 很小。

这种差距将“执行风险”变成了设计对象。

8. 一个简单的影响模型：流动性斜率 $\alpha_t$，以及为什么非平稳性是罪魁祸首

到目前为止，我们已经指出了即使控制器“良好”也可能保持较大的因素：

$$ 2\lambda{\text{track}}\sum{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|. $$

这就是执行-估计差距。它是结果中，即使有巧妙的分配也无法避免的部分。

现在我们需要解释是什么让它变得大，而不假装世界是平滑的。

所以我们采取了压力执行建模中的标准工程方法：

采用一个可处理的“执行随规模变差”模型，看看它意味着什么。

8.1 清算成本随规模呈二次方增长

当你清算时，你是在卖出到订单簿中。

一个局部线性影响模型将执行价格表示为：

$$ p^{\mathrm{liq,exec}}_t(q) \approx p^{\mathrm{mark}}_t \mp \alpha_t q, $$

其中 $\alpha_t \ge 0$ 是一个简化的局部“退出宽度”斜率，它将深度、逆向选择和执行策略吸收到一个可处理的参数中。较大的 $\alpha_t$ 意味着门更窄。

现在，将价格影响转换为美元。

如果执行价格因 $\alpha_t q$ 的幅度对你不利，并且你执行了 $q$ 单位，那么美元损失大致按以下方式缩放：

$$ (\text{价格变动}) \times (\text{数量}) \sim (\alpha_t q)\cdot q = \alpha_t q^2. $$

这就是 $\alpha_t$ 重要的全部原因：当规模很大时，它将“一点点更差的执行”转化为一个二次方的亏空。

因此，对于总清算规模为 $Q_t$ 的波次，将实际偿付能力要求写为：

$$ B_t^{\mathrm{needed}} = \alpha_t Q_t^2, \qquad \widehat{B}_t^{\mathrm{needed}} = \widehat{\alpha}_t Q_t^2. $$

现在，差距变得残酷具体：

$$ \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big| = Q_t^2\,\big|\alpha_t-\widehat{\alpha}_t\big|. $$

如果 $Q_t \le Q$，那么：

$$ \sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}t^{\mathrm{needed}}\big| \le Q^2 \sum{t=1}^T \big|\alpha_t-\widehat{\alpha}_t\big|. $$

所以问题归结为一句话：

你能追踪 $\alpha_t$ 的变化吗？

8.2 变异是危险的部分

许多人认为执行风险主要与压力水平有关。

这个模型指向别处。更深层次的危险是 $\alpha_t$ 在不同波次间的运动。

一条稳定但狭窄的道路是可学习的。一条每隔几秒钟就在“宽车道”和“单车道桥”之间切换的道路会产生持续的错误，即使有良好的转向规则。

这种交替强度由变异项捕获：

$$ P{\alpha,T} = \sum{t=2}^T |\alphat-\alpha{t-1}|. $$

将 $P_{\alpha,T}$ 视为：当控制器运行时，执行环境的制度转换有多剧烈。

在自然估计器下，累积斜率跟踪误差呈现以下形式：

$$ \sum_{t=1}^T |\widehat{\alpha}_t-\alpha_t| \;\lesssim\; C1\,\alpha{\max}\sqrt{T} \;+\; C2\,P{\alpha,T}. $$

这个不等式在本文中只有一个作用：告诉你你所处的世界。

在稳定世界中，估计误差以 $\sqrt{T}$ 的形式累积。
在制度切换世界中，估计误差以 $P_{\alpha,T}$ 的形式累积。

如果 $P_{\alpha,T}$ 随 $T$ 线性增长，那么即使控制器相对于其自身估计做所有“正确”的事情，执行-估计项也会变成线性。

9. 为什么队列在执行风险下看起来特别糟糕：它们可以放大有效非平稳性

在第一部分中，我们说队列是稀疏优化器：它们最小化“被触及账户的数量”，稀疏性会造成不连续性。

这已经解释了为什么队列感觉暴力。

执行风险增加了第二个脆弱性：在异构性下，不连续策略会使有效执行制度在波次之间更难追踪。

机制不仅仅是“谁支付”。它是“谁支付”加上“市场必须吸收的清算足迹”一波又一波。

9.1 异质性：不同账户以不同方式平仓

账户并非完全相同的权益包。

它们在清算执行方面存在差异：

规模和集中度，
其头寸所在的市场，
其平仓压力与所有其他账户的相关性，
其平仓如何映射到深度和影响。

编码这一点的一个最小方式是：每个候选账户 $i$ 都有其自身的有效清算斜率 $\alpha_i$。

现在是关键一步：

一个波次的有效执行严苛程度取决于你平仓哪些账户以及平仓多少。

一个方便的定义是加权平均：

$$ \bar{\alpha}t(\pi) := \frac{\sum{i\in W_t}\alphai\, q{i,t}(\pi)^2}{\sum_{i\in Wt} q{i,t}(\pi)^2}. $$

将其理解为：

当你主要平仓难以平仓的账户时，这一轮感觉严苛；当你主要平仓容易平仓的账户时，它感觉温和。

二次方权重出现是因为成本是二次方的。

9.2 不连续性将异质性转化为制度转换

队列选择一个极点。分数中的微小扰动可能会改变哪些账户被边缘触及。

当 $\alpha_i$ 异质时，这些成员资格的翻转可以翻转 $\bar{\alpha}_t$。

这直接将你推向危险状态：高变异，

$$ P{\bar{\alpha},T} = \sum{t=2}^T |\bar{\alpha}t-\bar{\alpha}{t-1}|. $$

平滑混合策略在每个波次中对异质账户进行平均。这并没有使执行变得容易，但它使有效环境的变化更加渐进。

渐进组合正是使得 $\alpha_t$ 可追踪的原因。

有关下方图表的更多背景信息，请参阅我们的短篇论文，ADL作为在线学习（2026年2月）。

9.3 范围声明

我们并非声称队列总是在所有市场微观结构中恶化执行。

我们声称的是一个更狭窄的观点：

10. 回到船上：为什么噪声下的脆弱性会变成偿付能力风险

让我们暂时回到甲板上，因为这部分虽然数学正确，但人类大脑仍然无法感受到它。

之前，船的故事是关于谁被抛下水。

队列抛出几个集装箱。按比例分配则在许多集装箱上减重。人们争论船长是否残忍。

第二部分是关于更具操作性的事情：

当你抛掷时，海洋本身正在变化。

缺失的状态变量是执行环境：当你试图降低风险时，出口有多窄。

我们给这个出口宽度一个名字：$\alpha_t$。

小的 $\alpha_t$ 意味着门很宽。大的 $\alpha_t$ 意味着每单位规模都会造成损失。

现在将它与控制器正在做的事情联系起来。

10.1 控制器瞄准一个移动的偿付能力要求

在每个波次 $t$ 中，交易所从精神上做一件简单的事情：

估计亏空会有多大，
应用严重程度来弥补它，
重复直到船恢复平衡。

偿付能力要求是：

$$ B_t^{\mathrm{needed}} = \alpha_t Q_t^2, $$

估计值是：

$$ \widehat{B}_t^{\mathrm{needed}} = \widehat{\alpha}_t Q_t^2. $$

所以“非平稳性”的实际含义是：

你的目标移动了，因为 $\alpha_t$ 移动了。

这就是为什么你可能是一个优秀的控制器，但仍然会错失。转向可能很灵敏，但跑道却一直在滑动。

10.2 为什么队列是特殊的：微小的噪声可能导致大的组成翻转

队列是不连续的。一个硬阈值将“小的状态噪声”转化为“成员资格变化”。

一个基础点的分数。一个平局打破。一个舍入的边缘情况。一个小的重新排序。这些都可以改变谁被击中。

在平滑策略中，这些扰动只会稍微改变分配。

在队列策略中，这些扰动可以极大地改变分配。

在异构性下，这些翻转会改变组成。组成改变了系统隐式体验的有效 $\bar{\alpha}_t$。然后你的“所需”预算再次移动。

所以动态链是：

不连续性 + 异构性 $\rightarrow$ $\bar{\alpha}_t$ 中更高的变异 $\rightarrow$ 更大的执行-估计误差 $\rightarrow$ 更大的跟踪缺失 $V_T$。

10.3 为什么队列辩论感觉被诅咒

许多在线争论将队列视为纯粹的分配选择：谁支付。

执行风险迫使我们提出第二个问题：你试图达到的目标有多稳定？

现在，两个观察者都可以是正确的，但仍然无法互相理解：

分配规则是预先宣布的，所以它是公平的。
系统不断出错和重新命中，所以它感觉是任意的。

如果机制生活在一个高变异状态，其中执行目标移动速度快于估计可以追踪的速度，那么两者都可能是真的。

10.4 一个微小的重构让后续章节变得清晰

到目前为止，我们已经建立了一个栈：

第一部分： 分配几何学（稀疏性 vs 平滑性，不连续性 vs 可预测性）。
第二部分： 执行不确定性使目标变得嘈杂；变异驱动跟踪失败。

现在我们准备好进行经济学家总是提出的理智检查了：

这些是否与行为相关，或者我们是否在为对抗性幽灵而设计？

11. 行为现实检验

早些时候，我们审视了ADL期间的行为，发现了一些应该让机制设计者稍微放松的事情：

大多数市场参与者并没有试图在危机中智胜ADL规则。

这并非因为交易者都是圣人，而是因为清算浪潮不是进行聪明计划的好时机。延迟高，价差大，风险波动，生存是主要目标。

这个经验事实在第二部分比在第一部分更重要。

一旦你接受大多数参与者并没有积极地进行博弈，一个设计优先级就变得不容忽视：

可预测性胜过聪明。

11.1 为什么“策略性撤销”不是真正的反派

很容易讲一个令人满意故事：

惩罚那些频繁翻转头寸的人；惩罚那些大量撤销操作的人。

第一部分（和代码库）中的经验总结打破了这种捷径。

撤销强度通常是对压力的反应。
外部性由清算足迹和执行差价驱动。

这些是不同的维度。

一个账户可能看起来很安静，但平仓成本却很高。

一个账户可能看起来很烦人，但却不是偿付能力缺口的主要贡献者。

11.2 与非平稳性的联系

变异是危险的，因为它是一个操作员问题，而不是一个对手方问题。

如果 $\alpha_t$ 因为市场波动而剧烈变化，你的估计器正在风暴中追踪一个移动的目标。即使没有人进行博弈，这也很困难。

因此，行为学结论是：

即使在战略操纵极少的世界中，追踪失败也可能发生。

对制度切换的鲁棒性不是一个边缘案例特性。它是主要事件。

12. 这项技术能实现什么：不作弊的策略比较

一旦你诚实地进行了拆分：

事前：$\widehat{B}_t^{\mathrm{needed}}$，
事后：$B_t^{\mathrm{needed}}$，

你终于可以在同一条已实现的危机路径上比较策略，而不会暗中引入预知。

回放式评估变得清晰且无可辩驳。

12.1 这里“同类比较”的含义

取一个实际发生的ADL事件：

实际的清算成交，
实际的滑点制度，
实际的压力波序列。

现在，对于每个候选策略 $\pi$（类队列、平滑混合、分层上限等）：

在相同的信息约束下，逐波计算行动 $x_t^\pi$，
计算 $H_t^\pi = \mathbf{1}^\top x_t^\pi$，
根据相同的事后基准 $B_t^{\mathrm{needed}}$ 进行评估。

你是在同一场风暴中比较转向规则。

12.2 当执行成为头等问题时会发生什么变化

第一部分提供了分配形状的词汇。

第二部分提供了失败来源的词汇。

第7节的分解分开了：

基线：$\mathcal P$ 内部的最佳事后表现，
可控：遗憾，
潜在状态：执行-估计误差。

一旦你看到这三点，你就不再问一个问题（“规则公平吗？”），而是开始问那些推动前沿的问题：

$\mathcal P$ 是否可实现且不具有预知能力？
我们是被遗憾主导，还是被执行-估计误差主导？
我们是在稳定状态下运作，还是在鲁棒性主导的高变异状态下运作？

请参阅我们的短篇论文以获取下方图表的更多背景信息。

13. 设计启示：鲁棒控制，而非叙事

如果你接受第二部分模型，ADL设计就开始看起来像危机工程。

评估纪律首先重要：你根据实际路径上的事后基准进行比较。

然后设计工作清晰地分开：

减少遗憾（在 $\mathcal P$ 内部进行更好的控制），
减少执行-估计误差（更好地测量/估计“所需”会是什么）。

13.1 稳定你试图命中的目标

如果 $B_t^{\mathrm{needed}}$ 是由执行差价产生的，那么机制必须将执行视为系统的一部分。

这并不意味着要完美预测市场。它的意思是：

维护一个明确的执行模型，
在制度转变时更新它，
避免那些使有效环境更难追踪的策略。

用符号表示，你试图缩小的项是：

$$ \sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}t^{\mathrm{needed}}\big| \approx Q^2 \sum{t=1}^T \big|\alpha_t-\widehat{\alpha}_t\big|. $$

任何能减少有效变异的东西都会直接有所帮助。

13.2 平滑性是鲁棒性的默认设置

我们解释了队列的来源：稀疏性和操作直觉。

这篇博客文章增加了一个更具操作性的后果：不连续性会放大有效执行环境中的变异。

所以默认的平滑混合不是道德偏好。它是一种控制偏好。

如果你选择队列策略，你应该睁大眼睛：

你正在购买稀疏性和速度，
你可能正在为漂移状态下的敏感性付出代价。

13.3 如果你想要优先级结构，请软化断崖

优先级可以是真实的，而无需成为硬性阶跃函数。

鲁棒的折衷方案包括：

分层桶，层内平滑，
防止一步断崖的上限，
在边界附近随机打破平局，
阻尼（除非信号强烈，否则不要在波次间激进地重新排名）。

这些是防止小错误变成大的构成翻转的方法。

13.4 明确比较类别

相对于什么感到遗憾？

如果 $\mathcal P$ 不明确，“遗憾”就变成了一个空壳游戏：选择一个弱的比较器并宣布胜利。

一个清晰的选择是：

$\mathcal P$ = 遵守相同可行性约束和上限、只使用决策时信息、主要在分配几何上有所不同并保留相同优先语义的策略。

那么“低遗憾”就成为一句有意义的话：在你实际可以推出的系列中，你是否转向得很好？

13.5 未来衡量什么

如果你希望本系列能够转化为操作诊断，那么三个对象应该出现在事后分析仪表板上：

1) 偿付能力追踪误差 $VT$
2) 执行制度变异 $P{\alpha,T}$（或其替代品）
3) 策略稳定性（脆弱性/不连续性替代品）

这三者让你能够诊断事件是由转向误差主导，还是由目标漂移主导。

14. 总结：第二部分之后“更好的ADL”意味着什么

第一部分将赤字视为既定事实并提出问题：一旦出现亏空，每种分配几何学意味着什么？第二部分补充了缺失的状态变量：亏空本身就是执行结果。在压力下，“需要”不是一个固定的标量：它是由实际清算执行事后揭示的，而控制器只能实时瞄准一个估计值。

这种拆分改变了“更好的ADL”的含义。正确的问题不再是“你喜欢哪个公平规则？”，而是：

我们是否根据事后回放基准评估策略，
我们是否将 $\widehat{B}_t^{\mathrm{needed}}$ 视为可能漂移的估计值，以及
我们的策略是否使有效执行环境足够稳定，以至于可学习？

从这个意义上说，ADL最好被视为执行不确定性下的在线控制。

15. 生产级ADL设计菜单，现在我们承认执行是机制的一部分

第一部分以分配形状的菜单结束：需要稀疏性时用队列，需要平滑性时用按比例分配，需要承诺通过构造实现时用高级分类账。

第二部分强制升级：

一个机制是分配加上定义在压力执行下“需要”意味着什么的测量层，因此这些最好被解读为在状态噪声敏感性、操作复杂性和暴露可预测性方面具有不同权衡的策略体系。

因此，这个菜单描述了交易所实际可以推出的三种原型，三种在波次中表现的方式，每种都有其物理故事、失败模式以及与现在主导的项的关系：

$$ \sum_{t=1}^T \big|B_t^{\mathrm{needed}}-\widehat{B}_t^{\mathrm{needed}}\big|. $$

如果你在阅读本节时脑中只有一个问题，请使用这个：

这种设计是让执行环境更容易学习，还是会造成估计器无法跟上的波到波切换？

15.1 设计A：队列优先分流（稀疏、果断、脆弱）

它对自己讲述的故事。

危机不是研讨会。快速恢复偿付能力，尽可能少地触及账户，最小化操作表面积。选择一个优先级规则，并击中顶部直到预算覆盖。

它优化了什么。

它最小化了被触及账户的数量（稀疏性）。第一部分的骨架是：

$$ \min #{i : h_i > 0} \quad \text{s.t.} \quad 0\le h_i\le c_i, \sum_i h_i \ge B. $$

这个目标编码了操作者的直觉：更少的状态转换，更少的争议，更少在波次中间卡住的机会。

它在哪里失效。

何时仍是正确的选择。

15.2 设计B：平滑混合控制器（按比例分配/镜像梯度下降式）

它对自己讲述的故事。

使机制稳定且可预测。追踪偿付能力，同时避免极端集中。

它优化了什么。

你可以将其建模为在满足目标约束下最小化一个凸的“痛苦”函数：

$$ \min_h \sum_i \phi\left(\frac{h_i}{c_i}\right) \quad \text{s.t. } 0\le h_i\le c_i, \sum_i h_i = B, $$

或者作为第7节中替代损失的镜像梯度下降更新。

凸性惩罚尖峰。惩罚尖峰会产生平滑的分配。

为什么它在执行不确定性下有帮助。

状态的微小变化只会导致行动的微小变化。这倾向于防止构成剧烈波动。当构成逐渐变化时，有效环境更容易追踪。

它在哪里失效。

当触及许多账户会造成操作失败（超时、争议、延迟反馈）时。许多交易所出于操作原因而非意识形态避免纯粹的按比例分配。

15.3 设计C：分层优先级 + 层内平滑（“诚实承诺”架构）

这种设计与用户认为“仅限利润”的含义相符。它仅在优先级是状态而非故事时才有效。

它对自己讲述的故事。

首先从初级资本中提取（利润桶），只有在可行性强制时才向上攀升。在每个层级内平滑分配。

它看起来像什么。

为每个账户维护明确的桶：$g_i^{(1)}, g_i^{(2)},\dots$（从初级到高级的利润），然后是本金 $p_i$。

对于波次预算 $B$，计算层级容量：

$$ C^{(m)}=\sum_i g_i^{(m)}. $$

按顺序耗尽层级：

从第1层取 $B^{(1)}=\min(B, C^{(1)})$，然后从第2层取 $B^{(2)}=\min(B-B^{(1)}, C^{(2)})$，以此类推。

在每个层级内，使用平滑规则进行分配。

为什么第二部分喜欢它。

它稳定了意义（没有代理神话）并在层级内稳定了控制（更少的断崖）。

它在哪里失效。

在可行性上。如果赤字超过初级容量，不等式会强制你向上。

16. 总结：第一部分 + 第二部分之后“更好的ADL”意味着什么

第一部分是几何学：队列购买稀疏性并创建不连续性；一旦惩罚尖峰就会出现平滑规则；“仅限利润”是穿着口号的可行性。第二部分补充了缺失的状态变量：执行。控制器使用 $\widehat{B}_t^{\mathrm{needed}}$ 选择严重程度，而世界通过实际清算成交揭示 $B_t^{\mathrm{needed}}$。

因此，“更好的ADL”具有具体的含义：

明确的测量。 通过构造将 $\widehat{B}_t^{\mathrm{needed}}$（事前目标）和 $B_t^{\mathrm{needed}}$（事后回放基准）分开。
执行是机制的一部分。 根据实际路径评估策略；跟踪 $V_T$，而不仅仅是估计目标下的“最优性”。
默认的稳定性。 偏爱在微小状态噪声下行动平稳的机制，除非你明确选择稀疏性以实现操作生存。
诚实的承诺。 如果你想要优先级语义（“赢利优先”），请将其表示为状态，而不是可重置的代理。

真正的成功标准

一个成熟的交易者能否在不猜测以下情况的前提下，推断出最坏情况下的ADL敞口：

“需要”是事前还是事后，
执行假设是否在波次中间漂移，或
不连续性是否会在微小扰动下翻转敞口？

可预测性是机制的风险溢价。市场可以为损失定价；它们难以对任意性定价。

参考文献

原文链接： github.com/thogiti/thogi...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

超越队列 II：执行风险下的ADL作为在线控制

现有成果

你将在这第二部分学到什么

1. 悄然运行整个机制的三种价格

1.1 三种价格

1.2 单波段小插曲（一个微小的数值示例）

1.3 “所需预算”不是一个道德数量

2. 建模修正：“需要”存在两次

2.1 事后“需要”（世界揭示了什么）

2.2 事前“需要”（控制器可以瞄准的目标）

3. 一句防止致命误解的话

4. 失败是与事后基准的追踪误差

5. 唯一诚实的比较是回放

6. 在线学习框架不是装饰。它是正确的对象。

7. 使失败来源清晰的分解

$$ \ell_t(x, b)

一句话分解

8. 一个简单的影响模型：流动性斜率 $\alpha_t$，以及为什么非平稳性是罪魁祸首

8.1 清算成本随规模呈二次方增长

8.2 变异是危险的部分

9. 为什么队列在执行风险下看起来特别糟糕：它们可以放大有效非平稳性

9.1 异质性：不同账户以不同方式平仓

9.2 不连续性将异质性转化为制度转换

9.3 范围声明

10. 回到船上：为什么噪声下的脆弱性会变成偿付能力风险

10.1 控制器瞄准一个移动的偿付能力要求

10.2 为什么队列是特殊的：微小的噪声可能导致大的组成翻转

10.3 为什么队列辩论感觉被诅咒

10.4 一个微小的重构让后续章节变得清晰

11. 行为现实检验

11.1 为什么“策略性撤销”不是真正的反派

11.2 与非平稳性的联系

12. 这项技术能实现什么：不作弊的策略比较

12.1 这里“同类比较”的含义

12.2 当执行成为头等问题时会发生什么变化

13. 设计启示：鲁棒控制，而非叙事

13.1 稳定你试图命中的目标

13.2 平滑性是鲁棒性的默认设置

13.3 如果你想要优先级结构，请软化断崖

13.4 明确比较类别

13.5 未来衡量什么

14. 总结：第二部分之后“更好的ADL”意味着什么

15. 生产级ADL设计菜单，现在我们承认执行是机制的一部分

15.1 设计A：队列优先分流（稀疏、果断、脆弱）

15.2 设计B：平滑混合控制器（按比例分配/镜像梯度下降式）

15.3 设计C：分层优先级 + 层内平滑（“诚实承诺”架构）

16. 总结：第一部分 + 第二部分之后“更好的ADL”意味着什么

真正的成功标准

参考文献

0 条评论

文章目录