The Anti-Overfitting Spine: DSR, PBO, HLZ — Alpha Agent

令人不安的共同线索。 主题 2–5 中的每一个系统都在 $10^3$–$10^6$ 个候选 alpha 上进行搜索，保留 10–50 个，并报告原始的 IC/Sharpe，而完全没有针对尝试了多少候选进行调整。没有任何一个报告收缩夏普比率（DSR）、PBO 或多重检验折减。自主循环（主题 5）使情况更糟，因为它可以无限制地生成假设。这正是提案（主题 7）所接入的那道门槛。

信息系数（Information Coefficient, IC）与信息比率（ICIR / Information Ratio）

信息系数（Information Coefficient, IC）是横截面 alpha 评估的主力指标。在每个再平衡日期 $t$，IC 度量信号的预测与可投资域中已实现的前瞻收益之间的秩相关或线性一致程度。

$$\text{IC}_t=\rho\bigl(f(\mathbf{X}_t),\mathbf{y}_t\bigr),\quad \overline{\text{IC}}=\tfrac1T\textstyle\sum_t \text{IC}_t,\quad \text{RankIC}_t=\rho\bigl(r(f(\mathbf{X}_t)),r(\mathbf{y}_t)\bigr),\quad \text{ICIR}=\frac{\overline{\text{IC}}}{\sigma(\text{IC}_t)}.$$

Pearson IC 对收益中的离群值敏感（单只股票翻三倍就可能主导相关性）； Rank IC（Spearman）对此具有稳健性，是股票信号实盘评估的首选变体。时间序列均值 $\overline{\text{IC}}$ 刻画的是预测的幅度，但它本身完全不能说明这一幅度在不同时期之间有多稳定。

为何在仓位调整与容量评估上 ICIR 比 IC 更重要

ICIR 是均值 IC 与其在各再平衡日期上标准差之比 — 它是信号层面上收益的信息比率（Information Ratio）的类比。当你把它与组合构建联系起来时，其作用就清晰了。根据主动管理基本法则（Fundamental Law of Active Management, Grinold 1989），组合层面的信息比率近似为 $\text{IR} \approx \text{IC} \times \sqrt{\text{Breadth}}$。但这假定每一期的 IC 取值都是可比的。当 IC 波动较大（ICIR 较低）时，管理者面临两个问题。其一，最优仓位规模在不同时期之间剧烈波动，产生换手与交易成本，侵蚀净收益。其二，风险配置变得不可靠：一个 IC = 0.08 但 $\sigma(\text{IC}) = 0.40$（ICIR = 0.20）的信号会频繁出现大幅负 IC 的时期，触发难以据以确定仓位规模的回撤。

具体来说，考虑两个信号：

信号 A： $\overline{\text{IC}} = 0.05$，$\sigma(\text{IC}) = 0.10$，ICIR = 0.50。
信号 B： $\overline{\text{IC}} = 0.08$，$\sigma(\text{IC}) = 0.40$，ICIR = 0.20。

信号 B 的平均 IC 高出 60%，但组合经理几乎总会偏好信号 A。在 ICIR = 0.50 时，信号 A 在大约 $T \geq (1.96/0.50)^2 \approx 15$ 期之后即可在统计上与零区分开。信号 B 则需要 $(1.96/0.20)^2 \approx 96$ 期才能达到同样的置信度。更重要的是，信号 A 可以支撑更大的仓位规模，而不必承担连续数月负 IC 的风险——这种连续负 IC 会摧毁配置者的信心并触发风险预算削减。在实务中，无论 IC 水平如何，配置者与多策略团队都把 ICIR $\geq$ 0.40 作为信号"可交易"的门槛。

经验法则。 对于一个有 $T$ 个月度观测的信号，检验 $\overline{\text{IC}} \neq 0$ 的 t 统计量为 $t = \text{ICIR} \times \sqrt{T}$。在 ICIR = 0.50 且 $T = 60$ 个月时，$t \approx 3.87$ — 高度显著。在 ICIR = 0.20 且同样的 $T$ 时，$t \approx 1.55$ — 在常规水平下不显著。

收缩夏普比率（Deflated Sharpe Ratio, DSR）（Bailey & López de Prado, 2014）

直白地陈述选择偏差问题

假设你模拟 $N = 10{,}000$ 个随机交易策略，每个都在同一份 10 年数据集上运行。每个策略都是纯噪声：其真实夏普比率为零。然而这 10,000 个中表现最好的那个策略会展现出正的样本 Sharpe，仅仅因为你在选取 10,000 个含噪样本的最大值。该最大值的期望随 $N$ 以及各个 Sharpe 估计的离散程度而增大。这并非微妙的统计学奇趣；它是大多数回测策略在实盘交易中失败的一阶解释。任何评估成千上万个候选并报告其中最佳者的系统，都在隐式地执行这种选择，而胜出者的原始 Sharpe 恰恰被这一机制向上偏倚。

收缩夏普比率（DSR）框架分两个阶段处理这一问题：首先，它为单个策略的 Sharpe 相对于某个基准提供一个分布检验（概率夏普比率（Probabilistic Sharpe Ratio, PSR））；然后，它把基准设为 $N$ 个无技能策略的期望最大 Sharpe （假策略定理（False Strategy Theorem）），从而得到一个计入整个搜索过程的 p 值。

阶段 1：概率夏普比率（PSR）

给定从 $T$ 个收益观测中估计的样本 Sharpe $\widehat{SR}$，PSR 回答：真实 Sharpe 超过某个基准 $SR^*$ 的概率是多少？在收益为 i.i.d. 的假设下（通过引入高阶矩予以放宽），样本 Sharpe 具有一个近似的标准误，它依赖于收益的偏度（skewness）$\hat\gamma_3$ 与峰度（kurtosis）$\hat\gamma_4$。

$$\text{PSR}(\widehat{SR};SR^*)=\Phi\!\left(\frac{(\widehat{SR}-SR^*)\sqrt{T-1}}{\sqrt{1-\hat\gamma_3\widehat{SR}+\frac{\hat\gamma_4-1}{4}\widehat{SR}^2}}\right).$$

分子是标准的"$z$ 分数"形式：观测 Sharpe 与基准 Sharpe 之差，按 $\sqrt{T-1}$ 缩放（数据越多 $\Rightarrow$ 精度越高）。当收益为负偏（$\hat\gamma_3 < 0$）或厚尾（$\hat\gamma_4 > 3$，即超额峰度 $> 0$）时，分母会放大标准误。这两种特征在策略收益中都是经验常见的：趋势跟踪策略通常呈现正偏但厚尾；做空波动率与均值回归策略呈现负偏。因此 PSR 会惩罚那些表面 Sharpe 被非正态性"美化"的策略。

各项的解读：

$\hat\gamma_3 \widehat{SR}$：负偏加上正的 Sharpe 会放大分母，降低 PSR。直观上，具有左尾风险的策略其 Sharpe 可靠性更低。
$\frac{\hat\gamma_4 - 1}{4} \widehat{SR}^2$：超额峰度进一步放大分母。厚尾意味着 Sharpe 的估计含有更多噪声，因此同样的观测值说服力更弱。
$T-1$：样本越大，估计越紧；只要 $\widehat{SR} > SR^*$，当 $T \to \infty$ 时 PSR 趋于 1。

阶段 2：假策略定理（False Strategy Theorem） — 原假设下的期望最大 Sharpe

假策略定理（Bailey & López de Prado 2014）推导出在 $N$ 个独立同分布、零技能试验中最佳策略的期望 Sharpe。若每个试验的估计 Sharpe $\widehat{SR}_n$ 具有方差 $V[\widehat{SR}_n]$，则期望最大值为：

$$SR_0=\sqrt{V[\widehat{SR}_n]}\Bigl[(1-\gamma)\,\Phi^{-1}\!\bigl(1-\tfrac1N\bigr)+\gamma\,\Phi^{-1}\!\bigl(1-\tfrac{1}{Ne}\bigr)\Bigr],\quad \gamma\approx0.5772.$$

此处 $\gamma$ 是欧拉–马歇罗尼常数（Euler-Mascheroni constant），$\Phi^{-1}$ 是标准正态分位数函数。该公式是对 i.i.d. 标准正态变量的 $\mathbb{E}[\max_{n=1}^N Z_n]$ 的渐近近似，并按 $\sqrt{V[\widehat{SR}_n]}$ 缩放。

$SR_0$ 如何随 $N$ 变化。 主导项是 $\Phi^{-1}(1 - 1/N)$，它随 $N$ 增长得缓慢但持续不止。作为参照：

$N = 10$：$\Phi^{-1}(0.90) = 1.28$，故 $SR_0 \approx 1.28\,\sqrt{V}$。
$N = 100$：$\Phi^{-1}(0.99) = 2.33$，故 $SR_0 \approx 2.33\,\sqrt{V}$。
$N = 1{,}000$：$\Phi^{-1}(0.999) = 3.09$，故 $SR_0 \approx 3.09\,\sqrt{V}$。
$N = 10{,}000$：$\Phi^{-1}(0.9999) = 3.72$，故 $SR_0 \approx 3.72\,\sqrt{V}$。
$N = 1{,}000{,}000$：$\Phi^{-1}(1 - 10^{-6}) = 4.75$，故 $SR_0 \approx 4.75\,\sqrt{V}$。

对于较大的 $N$，增长率约为 $\sqrt{2 \ln N}$（高斯次序统计量的 Gumbel 极限）。这意味着把搜索空间翻倍并不会使偏差翻倍，但偏差也永不饱和。候选数每增加一个数量级，门槛大约抬高 0.5–0.7 个 Sharpe 单位（在 $\sqrt{V} \approx 1$ 时）。

阶段 3：收缩夏普比率 = 以 $SR_0$ 为基准的 PSR

$$\text{DSR}=\text{PSR}(\widehat{SR};\,SR_0).$$

DSR 是观测 Sharpe 超过期望的"$N$ 个噪声中最佳者"门槛的概率。DSR 高于 0.95（类比于 5% 显著性水平）表明该策略具有超出单纯选择所能解释的真实技能。

数值算例

考虑一条 AlphaForge 风格的流水线，它在 $T = 2{,}520$ 个日度观测（10 年）上评估 $N = 10{,}000$ 个候选公式。假设各试验之间估计 Sharpe 比率的标准差为 $\sqrt{V[\widehat{SR}_n]} = 0.30$（当策略在结构上足够多样时，这是一个现实的取值）。那么：

$SR_0 \approx 0.30 \times 3.72 = 1.12$（使用上文 $N = 10{,}000$ 的分位数，为简化忽略欧拉–马歇罗尼混合项）。
该流水线报告其最佳策略为 $\widehat{SR} = 0.88$。由于 $0.88 < SR_0 = 1.12$， DSR 低于 0.50 — 观测到的表现差于你从 10,000 个纯随机策略中取最佳所能预期的水平。该回测毫无信息量。
要在这一搜索广度下达到 DSR $\geq 0.95$，胜出者需要 $\widehat{SR} \gtrsim 1.12 + 1.65 \times \text{SE}$，其中 SE 是来自 PSR 分母的标准误。对于正态分布的收益（无偏度/峰度惩罚）， $\text{SE} \approx 1/\sqrt{T} \approx 0.02$，因此门槛大致为 $\widehat{SR} \gtrsim 1.15$ — 远高于所考察的任何系统所报告的水平。

差距的量级。 主题 2–5 中报告的最佳 Sharpe 是 AlphaSAGE 在 S&P 500 上的 6.32 — 但那是在一个恰好强劲牛市的市场上、极短（2 年）的测试窗口，因此 $T$ 很小、Sharpe 估计噪声很大。在更长期限的 CSI300 上，报告的 Sharpe 为 0.88–1.71。相对于 1.0–1.5 的 $SR_0$ （取决于 $N$ 与 $V$），其中大多数都通不过收缩检验。在不报告 $N$、$V$ 与 DSR 的情况下，我们根本无从判断这些结果中是否有任何一个反映了真实技能。

回测过拟合概率（PBO）（组合对称交叉验证 CSCV）

直觉：样本内最佳者能否在样本外存活？

Bailey、Borwein、López de Prado & Zhu（2017）的组合对称交叉验证（CSCV）方法是一种非参数、无模型的回测过拟合检验。它提出一个直接的问题：若我在数据的样本内（IS）部分上优化一个策略，这个样本内最佳策略在样本外（OOS）是否也表现良好？若否 — 若样本内排名与样本外排名无关或呈负相关 — 则该回测是过拟合的。

详细流程

把完整的回测样本划分为 $2S$ 个不重叠、相邻、长度大致相等的时间块。然后枚举所有 $\binom{2S}{S}$ 种把 $S$ 个块分配给样本内子集、其余 $S$ 个块分配给样本外子集的方式。对于其中每一种组合划分：

在样本内块上计算每个候选策略的表现（例如 Sharpe 比率）。
选出在样本内表现中排名第一的策略 $s^*_{\text{IS}}$。
记录 $s^*_{\text{IS}}$ 在样本外块上相对于所有策略的排名。

在穷尽所有 $\binom{2S}{S}$ 种划分后，PBO 即为样本内最优策略的样本外排名落在中位数及以下的那部分划分所占的比例：

$$\text{PBO}=\Pr\bigl[\text{rank}_{\text{OOS}}(s^*_{\text{IS}})\le \text{median}\bigr].$$

PBO 的解读

若回测没有过拟合（样本内优化挑选的是真正好的策略），样本内最佳者在样本外也应排名靠前，PBO 应接近于零。若策略是纯噪声，样本内排名与样本外排名相互独立，PBO 收敛到 0.50。PBO > 0.50 意味着样本内优化主动挑选出在样本外差于随机的策略 — 这是过拟合的典型标志，即优化器抓住了在样本外发生反转的样本内噪声。

该方法是无模型的：它不对收益作任何分布假设，不需要策略空间的参数化模型，并且同等适用于公式化 alpha、机器学习模型与基于规则的系统。它是对称的，因为每个时间块恰好在一半的样本内集合与一半的样本外集合中出现。当 $2S$ 较小时（例如 $2S = 16$），$\binom{16}{8} = 12{,}870$ 种划分在计算上微不足道。对于更大的 $S$，对 $\binom{2S}{S}$ 全集进行随机子抽样即已足够。

实务校准。 Bailey 等（2017）表明，对于一个典型的量化股票回测——$2S = 16$ 个块、策略空间为 100 多种配置——"合理"策略的 PBO 值常见于 0.30–0.45，而 PBO > 0.50 可靠地标示出过拟合。报告 PBO $\leq$ 0.10 的系统提供了其样本内所选配置确实具有泛化能力的有力证据。本研讨会中的六个系统没有任何一个计算或报告 PBO。

Harvey–Liu–Zhu 多重检验（multiple testing）折减

为何 $t > 2$ 在 2016 年已经太宽松 — 而在自动化搜索之后更是远远过于宽松

常规的显著性门槛 $t > 2.0$（对应双侧 $p < 0.05$）控制的是单个假设检验的假阳性率。但当有 $M$ 个因子被检验过 — 无论是同一研究者所为，还是文献中累积所致 — 族错误率就会被放大。Harvey、Liu & Zhu（2016）记录到，到 2012 年，至少约有 316 个因子已发表于经同行评审的金融期刊。在简单的 Bonferroni 校正下，调整后的显著性门槛变为：

$$t_{\text{adj}}\ge\Phi^{-1}\!\Bigl(1-\tfrac{p}{2M}\Bigr),$$

它把单次检验的 $p$ 值替换为 $p/M$（Bonferroni 调整后的水平）。代入 $p = 0.05$ 与 $M = 316$： $t_{\text{adj}} \geq \Phi^{-1}(1 - 0.05/(2 \times 316)) = \Phi^{-1}(1 - 7.91 \times 10^{-5}) \approx 3.78$。即便是他们更为保守的推荐值 $t > 3.0$（考虑了相互相关的检验，这会削弱 Bonferroni 界），相对于常规门槛也已是大幅抬升。

$t_{\text{adj}}$ 如何随 $M$ 增长

Bonferroni 门槛随 $M$ 对数式增长，因为对于较小的 $c/M$ 有 $\Phi^{-1}(1 - c/M) \approx \sqrt{2 \ln(M/c)}$。在 $p = 0.05$ 时的一些参照值：

$M = 10$（单个研究者的因子搜索）：$t_{\text{adj}} \approx 2.81$。
$M = 100$：$t_{\text{adj}} \approx 3.37$。
$M = 316$（HLZ 2016 的计数）：$t_{\text{adj}} \approx 3.78$（Bonferroni）或 $\approx 3.0$（BHY 调整后的推荐值）。
$M = 1{,}000$（到 2020 年可能的累积计数）：$t_{\text{adj}} \approx 4.01$。
$M = 10{,}000$（单次 AlphaGen/AlphaForge 运行）：$t_{\text{adj}} \approx 4.56$。
$M = 1{,}000{,}000$（激进的自主循环）：$t_{\text{adj}} \approx 5.33$。

BHY 校正（Benjamini-Hochberg-Yekutieli）在检验相互相关时（因子不可避免如此）比 Bonferroni 更不保守。它控制的是错误发现率（FDR）而非族错误率。Harvey、Liu & Zhu 运用 BHY 推导出他们推荐的门槛 $t > 3.0$，该值考虑了已发表因子之间的经验相关结构。但这一门槛是针对截至 2012 年约 316 个已发表因子校准的。一个在单次运行中检验 10,000 多个候选的自动化系统面对的 $M$ 要大得多，而 BHY 调整后的门槛也随之抬升。

这个算术令人触目惊心。 一个 $t = 2.5$ 的因子在单次检验惯例下"显著"，但在 $M = 50$ 时即告失败。一个 $t = 3.0$ 的因子能熬过约 300 次检验，但在 $M = 5{,}000$ 时失败。只有 $t > 4.0$ 的因子才能熬过自动化 alpha 挖掘器例行执行的那种搜索深度。所考察系统中报告的 t 统计量几乎从不超过 3.0，而且它们从不针对搜索广度进行调整。

为何自主循环让这一问题变得尖锐

选择偏差问题随所尝试假设的数量而升级。在传统研究场景中，$N$ 受研究者时间所限：一名博士生在一个跨越数年的项目中可能检验 50–200 个因子设定。像 AlphaEvolve 或 AlphaGen 这样基于进化或强化学习的系统每次运行检验 $10^3$–$10^5$ 个候选，将 $SR_0$ 与 $t_{\text{adj}}$ 大幅抬高。但由大语言模型驱动的自主循环 — 即 RD-Agent(Q) 与 AlphaAgent 的架构 — 则彻底移除了这一约束：该循环可以一天 24 小时、跨越无限多个周期地生成、实现并评估假设，而没有自然的停止规则。

这对选择偏差有三个后果：

无界的 $N$。 候选策略的总数不再由文法规模或种群数量（如在遗传规划 GP 中那样）固定，而是随墙钟时间线性增长。每次循环迭代都会生成新的因子代码、对其回测，并予以保留或丢弃。假策略定理中的 $N$ 是所评估候选的总计数，包括被丢弃的那些 — 而不仅仅是幸存者。
被丢弃的试验仍然计数。 一个常见的错误是声称：由于只有 50 个因子熬过流水线，所以 $N = 50$。这是不对的。$SR_0$ 与 $t_{\text{adj}}$ 必须针对所评估的全部候选集合来计算，因为选择是在观察到它们的表现之后进行的。丢弃糟糕的候选本身就是抬高胜出者表面质量的那种选择机制。诚实的收缩要求记录曾被评估的每一个候选，包括失败的那些。
自适应搜索放大偏差。 GP、强化学习与基于大语言模型的生成器并非独立地抽样策略 — 每个新候选都受先前候选表现的影响。这使得（就选择偏差而言的）有效 $N$ 可能大于字面上的候选数，因为生成器把搜索集中在策略空间中那些在样本内看起来有希望的区域。假策略定理所依赖的独立试验假设是宽松的；实际偏差可能更糟。

六个系统中没有一个记录或报告 $N$。 在不知道评估了（并丢弃了）多少候选的情况下，就无法计算 $SR_0$、调整 $t$ 统计量或评估 PBO。这些系统只报告幸存者。这在统计上等同于一项只报告有响应患者的药物试验 — 分母不见了。

冗余去重与选择偏差控制：两个不同的问题

本研讨会中的每个系统都实现了某种基于相关性的去重：AlphaEvolve 修剪两两相关 $|\rho| > \tau_{\text{corr}}$ 的候选；AlphaSAGE 惩罚低 $R_{\text{NOV}}$； RD-Agent(Q) 把 IC $\geq$ 0.99 标记为冗余；AlphaAgent 度量 AST 结构相似度。这些机制处理的是冗余（redundancy）：确保最终的 alpha 组合包含真正不同的信号，而非同一预测变量的细微变体。

冗余控制是必要的，但不充分。它回答的是："我幸存下来的各 alpha 彼此不同吗？"它不回答："如果我尝试更少的候选，我最好的 alpha 还会看起来这么好吗？" 后一个问题关乎选择偏差（selection bias），它需要完全不同的工具：

DSR 以 $N$ 个噪声策略的期望最大值来收缩观测到的 Sharpe。它告诉你胜出者是否优于最好的运气。
PBO/CSCV 在所有组合划分上检验样本内最优策略是否在样本外泛化。它告诉你优化找到的是信号还是噪声。
HLZ 折减 按与 $M$ 成比例地抬高统计显著性门槛。它告诉你：如果把你尝试过的其他一切都计入，报告的 $t$ 统计量是否还能存活。

一个系统可以拥有完美的去重（所有幸存 alpha 两两不相关），却仍然严重过拟合——如果搜索曾检查了 100,000 个候选才找到那些幸存者。反之，一个具有中等冗余但诚实收缩（DSR $>$ 0.95，PBO $<$ 0.20）的系统提供了远为有力的真实预测内容证据。下方的覆盖表使这一差距清晰可见：每个系统都在第一行（去重）上投入；却没有一个在第二、第三或第四行（收缩）上投入。

文献遗漏了什么

反过拟合工具	AlphaEvolve	AlphaGen	AlphaForge	AlphaSAGE	RD-Agent(Q)	AlphaAgent
前向滚动 / 净化交叉验证	部分	无	年度重训	无	有 (Qlib)	无
收缩夏普比率	无	无	无	无	无	无
PBO / CSCV	无	无	无	无	无	无
HLZ 多重检验	无	无	无	无	无	无
相关性去重	有	隐式	$\tau_{\text{corr}}$	$R_{\text{NOV}}$	IC≥0.99	AST

相关性去重是普遍存在的 — 它控制的是冗余。但这些机制中没有任何一个控制 选择偏差：即由所检查候选的庞大数量造成的最佳结果膨胀。 DSR、PBO 与 HLZ 折减做到了这一点，而相对于搜索本身，它们在计算上微不足道。

反过拟合的脊柱

信息系数（Information Coefficient, IC）与信息比率（ICIR / Information Ratio）

为何在仓位调整与容量评估上 ICIR 比 IC 更重要

收缩夏普比率（Deflated Sharpe Ratio, DSR）（Bailey & López de Prado, 2014）

直白地陈述选择偏差问题

阶段 1：概率夏普比率（PSR）

阶段 2：假策略定理（False Strategy Theorem） — 原假设下的期望最大 Sharpe

阶段 3：收缩夏普比率 = 以 $SR_0$ 为基准的 PSR

数值算例

回测过拟合概率（PBO）（组合对称交叉验证 CSCV）

直觉：样本内最佳者能否在样本外存活？

详细流程

PBO 的解读

Harvey–Liu–Zhu 多重检验（multiple testing）折减

为何 $t > 2$ 在 2016 年已经太宽松 — 而在自动化搜索之后更是远远过于宽松

$t_{\text{adj}}$ 如何随 $M$ 增长

为何自主循环让这一问题变得尖锐

冗余去重与选择偏差控制：两个不同的问题

文献遗漏了什么