← Alpha Agent · all topics
主题 6 · 方法论

反过拟合的脊柱

本应为本研讨会中每一个系统设置门槛、却在所有系统中都缺席的选择偏差(selection bias)工具箱:收缩夏普比率(Deflated Sharpe Ratio, DSR)、回测过拟合概率(Probability of Backtest Overfitting, PBO),以及多重检验折减(haircut)。 相对于搜索本身,这些修正的成本极低;它们的缺席是一种选择,而非约束。

令人不安的共同线索。 主题 2–5 中的每一个系统都在 $10^3$–$10^6$ 个候选 alpha 上进行搜索,保留 10–50 个,并报告原始的 IC/Sharpe,而完全没有针对尝试了多少候选进行调整。 没有任何一个报告收缩夏普比率(DSR)、PBO 或多重检验折减。 自主循环(主题 5)使情况更糟,因为它可以无限制地生成假设。这正是 提案(主题 7)所接入的那道门槛。

信息系数(Information Coefficient, IC)与信息比率(ICIR / Information Ratio)

信息系数(Information Coefficient, IC)是横截面 alpha 评估的主力指标。 在每个再平衡日期 $t$,IC 度量信号的预测与可投资域中已实现的前瞻收益之间的 秩相关或线性一致程度。

$$\text{IC}_t=\rho\bigl(f(\mathbf{X}_t),\mathbf{y}_t\bigr),\quad \overline{\text{IC}}=\tfrac1T\textstyle\sum_t \text{IC}_t,\quad \text{RankIC}_t=\rho\bigl(r(f(\mathbf{X}_t)),r(\mathbf{y}_t)\bigr),\quad \text{ICIR}=\frac{\overline{\text{IC}}}{\sigma(\text{IC}_t)}.$$

Pearson IC 对收益中的离群值敏感(单只股票翻三倍就可能主导相关性); Rank IC(Spearman)对此具有稳健性,是股票信号实盘评估的首选变体。 时间序列均值 $\overline{\text{IC}}$ 刻画的是预测的幅度,但它本身完全不能说明 这一幅度在不同时期之间有多稳定。

为何在仓位调整与容量评估上 ICIR 比 IC 更重要

ICIR 是均值 IC 与其在各再平衡日期上标准差之比 — 它是信号层面上 收益的信息比率(Information Ratio)的类比。当你把它与组合构建联系起来时,其作用就清晰了。 根据主动管理基本法则(Fundamental Law of Active Management, Grinold 1989),组合层面的信息比率 近似为 $\text{IR} \approx \text{IC} \times \sqrt{\text{Breadth}}$。但这假定每一期的 IC 取值都是可比的。当 IC 波动较大(ICIR 较低)时,管理者面临两个问题。 其一,最优仓位规模在不同时期之间剧烈波动,产生换手与交易成本, 侵蚀净收益。其二,风险配置变得不可靠:一个 IC = 0.08 但 $\sigma(\text{IC}) = 0.40$(ICIR = 0.20)的信号会频繁出现大幅负 IC 的时期,触发 难以据以确定仓位规模的回撤。

具体来说,考虑两个信号:

信号 B 的平均 IC 高出 60%,但组合经理几乎总会偏好信号 A。 在 ICIR = 0.50 时,信号 A 在大约 $T \geq (1.96/0.50)^2 \approx 15$ 期之后即可在统计上与零区分开。信号 B 则需要 $(1.96/0.20)^2 \approx 96$ 期 才能达到同样的置信度。更重要的是,信号 A 可以支撑更大的仓位规模,而 不必承担连续数月负 IC 的风险——这种连续负 IC 会摧毁配置者的信心并触发 风险预算削减。在实务中,无论 IC 水平如何,配置者与多策略团队都把 ICIR $\geq$ 0.40 作为信号"可交易"的门槛。

经验法则。 对于一个有 $T$ 个月度观测的信号,检验 $\overline{\text{IC}} \neq 0$ 的 t 统计量为 $t = \text{ICIR} \times \sqrt{T}$。在 ICIR = 0.50 且 $T = 60$ 个月时,$t \approx 3.87$ — 高度显著。在 ICIR = 0.20 且同样的 $T$ 时,$t \approx 1.55$ — 在常规水平下不显著。

收缩夏普比率(Deflated Sharpe Ratio, DSR)(Bailey & López de Prado, 2014)

直白地陈述选择偏差问题

假设你模拟 $N = 10{,}000$ 个随机交易策略,每个都在同一份 10 年数据集上运行。 每个策略都是纯噪声:其真实夏普比率为零。然而这 10,000 个中表现最好的那个策略 会展现出正的样本 Sharpe,仅仅因为你在选取 10,000 个含噪样本的最大值。 该最大值的期望随 $N$ 以及各个 Sharpe 估计的离散程度而增大。这并非微妙的 统计学奇趣;它是大多数回测策略在实盘交易中失败的一阶 解释。任何评估成千上万个候选并报告其中最佳者的系统,都在隐式地执行这种选择, 而胜出者的原始 Sharpe 恰恰被这一机制向上偏倚。

收缩夏普比率(DSR)框架分两个阶段处理这一问题:首先,它为单个策略的 Sharpe 相对于某个基准提供一个分布检验(概率夏普比率(Probabilistic Sharpe Ratio, PSR)); 然后,它把基准设为 $N$ 个无技能策略的期望最大 Sharpe (假策略定理(False Strategy Theorem)),从而得到一个计入整个搜索过程的 p 值。

阶段 1:概率夏普比率(PSR)

给定从 $T$ 个收益观测中估计的样本 Sharpe $\widehat{SR}$,PSR 回答: 真实 Sharpe 超过某个基准 $SR^*$ 的概率是多少?在收益为 i.i.d. 的假设下 (通过引入高阶矩予以放宽),样本 Sharpe 具有一个近似的 标准误,它依赖于收益的偏度(skewness)$\hat\gamma_3$ 与峰度(kurtosis)$\hat\gamma_4$。

$$\text{PSR}(\widehat{SR};SR^*)=\Phi\!\left(\frac{(\widehat{SR}-SR^*)\sqrt{T-1}}{\sqrt{1-\hat\gamma_3\widehat{SR}+\frac{\hat\gamma_4-1}{4}\widehat{SR}^2}}\right).$$

分子是标准的"$z$ 分数"形式:观测 Sharpe 与基准 Sharpe 之差,按 $\sqrt{T-1}$ 缩放(数据越多 $\Rightarrow$ 精度越高)。当收益为负偏 ($\hat\gamma_3 < 0$)或厚尾($\hat\gamma_4 > 3$,即超额 峰度 $> 0$)时,分母会放大标准误。这两种特征在策略收益中都是经验常见的:趋势跟踪策略 通常呈现正偏但厚尾;做空波动率与均值回归策略呈现负偏。 因此 PSR 会惩罚那些表面 Sharpe 被非正态性"美化"的策略。

各项的解读:

阶段 2:假策略定理(False Strategy Theorem) — 原假设下的期望最大 Sharpe

假策略定理(Bailey & López de Prado 2014)推导出在 $N$ 个独立同分布、 零技能试验中最佳策略的期望 Sharpe。若每个试验的 估计 Sharpe $\widehat{SR}_n$ 具有方差 $V[\widehat{SR}_n]$,则期望最大值为:

$$SR_0=\sqrt{V[\widehat{SR}_n]}\Bigl[(1-\gamma)\,\Phi^{-1}\!\bigl(1-\tfrac1N\bigr)+\gamma\,\Phi^{-1}\!\bigl(1-\tfrac{1}{Ne}\bigr)\Bigr],\quad \gamma\approx0.5772.$$

此处 $\gamma$ 是欧拉–马歇罗尼常数(Euler-Mascheroni constant),$\Phi^{-1}$ 是标准正态分位数函数。 该公式是对 i.i.d. 标准正态变量的 $\mathbb{E}[\max_{n=1}^N Z_n]$ 的渐近近似, 并按 $\sqrt{V[\widehat{SR}_n]}$ 缩放。

$SR_0$ 如何随 $N$ 变化。 主导项是 $\Phi^{-1}(1 - 1/N)$,它随 $N$ 增长得 缓慢但持续不止。作为参照:

对于较大的 $N$,增长率约为 $\sqrt{2 \ln N}$(高斯次序统计量的 Gumbel 极限)。 这意味着把搜索空间翻倍并不会使偏差翻倍,但偏差也永不饱和。 候选数每增加一个数量级,门槛大约抬高 0.5–0.7 个 Sharpe 单位 (在 $\sqrt{V} \approx 1$ 时)。

阶段 3:收缩夏普比率 = 以 $SR_0$ 为基准的 PSR

$$\text{DSR}=\text{PSR}(\widehat{SR};\,SR_0).$$

DSR 是观测 Sharpe 超过期望的"$N$ 个噪声中最佳者"门槛的概率。DSR 高于 0.95(类比于 5% 显著性水平)表明该策略具有超出单纯选择所能解释的 真实技能。

数值算例

考虑一条 AlphaForge 风格的流水线,它在 $T = 2{,}520$ 个日度观测(10 年)上评估 $N = 10{,}000$ 个候选公式。假设各试验之间估计 Sharpe 比率的标准差为 $\sqrt{V[\widehat{SR}_n]} = 0.30$(当策略在结构上足够多样时,这是一个现实的取值)。 那么:

差距的量级。 主题 2–5 中报告的最佳 Sharpe 是 AlphaSAGE 在 S&P 500 上的 6.32 — 但那是在一个恰好强劲牛市的市场上、 极短(2 年)的测试窗口,因此 $T$ 很小、Sharpe 估计噪声很大。 在更长期限的 CSI300 上,报告的 Sharpe 为 0.88–1.71。相对于 1.0–1.5 的 $SR_0$ (取决于 $N$ 与 $V$),其中大多数都通不过收缩检验。在不报告 $N$、$V$ 与 DSR 的情况下, 我们根本无从判断这些结果中是否有任何一个反映了真实技能。

回测过拟合概率(PBO)(组合对称交叉验证 CSCV)

直觉:样本内最佳者能否在样本外存活?

Bailey、Borwein、López de Prado & Zhu(2017)的组合对称交叉验证(CSCV) 方法是一种非参数、无模型的回测过拟合检验。它提出一个直接的 问题:若我在数据的样本内(IS)部分上优化一个策略,这个样本内最佳策略 在样本外(OOS)是否也表现良好?若否 — 若样本内排名与样本外排名无关或 呈负相关 — 则该回测是过拟合的。

详细流程

把完整的回测样本划分为 $2S$ 个不重叠、相邻、长度大致相等的时间块。 然后枚举所有 $\binom{2S}{S}$ 种把 $S$ 个块分配给样本内 子集、其余 $S$ 个块分配给样本外子集的方式。对于其中每一种组合 划分:

在穷尽所有 $\binom{2S}{S}$ 种划分后,PBO 即为样本内最优策略的样本外排名 落在中位数及以下的那部分划分所占的比例:

$$\text{PBO}=\Pr\bigl[\text{rank}_{\text{OOS}}(s^*_{\text{IS}})\le \text{median}\bigr].$$

PBO 的解读

若回测没有过拟合(样本内优化挑选的是真正好的策略),样本内最佳者 在样本外也应排名靠前,PBO 应接近于零。若策略是纯噪声,样本内 排名与样本外排名相互独立,PBO 收敛到 0.50。PBO > 0.50 意味着样本内 优化主动挑选出在样本外差于随机的策略 — 这是 过拟合的典型标志,即优化器抓住了在样本外发生反转的样本内噪声。

该方法是无模型的:它不对收益作任何分布假设,不需要 策略空间的参数化模型,并且同等适用于公式化 alpha、机器学习模型与基于规则的 系统。它是对称的,因为每个时间块恰好在一半的样本内集合与一半的 样本外集合中出现。当 $2S$ 较小时(例如 $2S = 16$),$\binom{16}{8} = 12{,}870$ 种划分在计算上 微不足道。对于更大的 $S$,对 $\binom{2S}{S}$ 全集进行随机子抽样即已足够。

实务校准。 Bailey 等(2017)表明,对于一个典型的量化股票 回测——$2S = 16$ 个块、策略空间为 100 多种配置——"合理"策略的 PBO 值常见于 0.30–0.45, 而 PBO > 0.50 可靠地标示出过拟合。报告 PBO $\leq$ 0.10 的系统 提供了其样本内所选配置确实具有泛化能力的有力证据。本研讨会中的六个系统 没有任何一个计算或报告 PBO。

Harvey–Liu–Zhu 多重检验(multiple testing)折减

为何 $t > 2$ 在 2016 年已经太宽松 — 而在自动化搜索之后更是远远过于宽松

常规的显著性门槛 $t > 2.0$(对应双侧 $p < 0.05$) 控制的是单个假设检验的假阳性率。但当有 $M$ 个因子被 检验过 — 无论是同一研究者所为,还是文献中累积所致 — 族 错误率就会被放大。Harvey、Liu & Zhu(2016)记录到,到 2012 年,至少 约有 316 个因子已发表于经同行评审的金融期刊。在简单的 Bonferroni 校正下, 调整后的显著性门槛变为:

$$t_{\text{adj}}\ge\Phi^{-1}\!\Bigl(1-\tfrac{p}{2M}\Bigr),$$

它把单次检验的 $p$ 值替换为 $p/M$(Bonferroni 调整后的水平)。代入 $p = 0.05$ 与 $M = 316$: $t_{\text{adj}} \geq \Phi^{-1}(1 - 0.05/(2 \times 316)) = \Phi^{-1}(1 - 7.91 \times 10^{-5}) \approx 3.78$。 即便是他们更为保守的推荐值 $t > 3.0$(考虑了相互相关的检验,这会削弱 Bonferroni 界),相对于常规门槛也已是大幅抬升。

$t_{\text{adj}}$ 如何随 $M$ 增长

Bonferroni 门槛随 $M$ 对数式增长,因为对于较小的 $c/M$ 有 $\Phi^{-1}(1 - c/M) \approx \sqrt{2 \ln(M/c)}$。在 $p = 0.05$ 时的一些参照值:

BHY 校正(Benjamini-Hochberg-Yekutieli)在检验相互相关时(因子不可避免如此) 比 Bonferroni 更不保守。它控制的是错误发现率(FDR)而非 族错误率。Harvey、Liu & Zhu 运用 BHY 推导出他们推荐的门槛 $t > 3.0$,该值考虑了已发表因子之间的经验相关结构。 但这一门槛是针对截至 2012 年约 316 个已发表因子校准的。一个 在单次运行中检验 10,000 多个候选的自动化系统面对的 $M$ 要大得多,而 BHY 调整后的门槛 也随之抬升。

这个算术令人触目惊心。 一个 $t = 2.5$ 的因子在单次检验 惯例下"显著",但在 $M = 50$ 时即告失败。一个 $t = 3.0$ 的因子能熬过约 300 次检验,但在 $M = 5{,}000$ 时失败。 只有 $t > 4.0$ 的因子才能熬过自动化 alpha 挖掘器例行执行的那种 搜索深度。所考察系统中报告的 t 统计量几乎从不超过 3.0,而且它们 从不针对搜索广度进行调整。

为何自主循环让这一问题变得尖锐

选择偏差问题随所尝试假设的数量而升级。在传统研究 场景中,$N$ 受研究者时间所限:一名博士生在一个跨越数年的项目中可能检验 50–200 个因子 设定。像 AlphaEvolve 或 AlphaGen 这样基于进化或强化学习的系统 每次运行检验 $10^3$–$10^5$ 个候选,将 $SR_0$ 与 $t_{\text{adj}}$ 大幅抬高。 但由大语言模型驱动的自主循环 — 即 RD-Agent(Q) 与 AlphaAgent 的架构 — 则彻底移除了这一约束:该循环可以一天 24 小时、跨越无限多个周期地 生成、实现并评估假设,而没有自然的停止规则。

这对选择偏差有三个后果:

六个系统中没有一个记录或报告 $N$。 在不知道评估了(并丢弃了)多少候选的情况下, 就无法计算 $SR_0$、调整 $t$ 统计量或评估 PBO。 这些系统只报告幸存者。这在统计上等同于一项只报告 有响应患者的药物试验 — 分母不见了。

冗余去重与选择偏差控制:两个不同的问题

本研讨会中的每个系统都实现了某种基于相关性的去重:AlphaEvolve 修剪 两两相关 $|\rho| > \tau_{\text{corr}}$ 的候选;AlphaSAGE 惩罚低 $R_{\text{NOV}}$; RD-Agent(Q) 把 IC $\geq$ 0.99 标记为冗余;AlphaAgent 度量 AST 结构相似度。 这些机制处理的是冗余(redundancy):确保最终的 alpha 组合包含 真正不同的信号,而非同一预测变量的细微变体。

冗余控制是必要的,但不充分。它回答的是:"我幸存下来的各 alpha 彼此 不同吗?"它回答:"如果我尝试更少的候选,我最好的 alpha 还会看起来这么好吗?" 后一个问题关乎选择偏差(selection bias),它需要完全 不同的工具:

一个系统可以拥有完美的去重(所有幸存 alpha 两两不相关),却仍然 严重过拟合——如果搜索曾检查了 100,000 个候选才找到那些幸存者。反之,一个 具有中等冗余但诚实收缩(DSR $>$ 0.95,PBO $<$ 0.20)的系统提供了远为有力的 真实预测内容证据。下方的覆盖表使这一差距清晰可见:每个系统 都在第一行(去重)上投入;却没有一个在第二、第三或第四行(收缩)上投入。

文献遗漏了什么

反过拟合工具AlphaEvolveAlphaGenAlphaForgeAlphaSAGERD-Agent(Q)AlphaAgent
前向滚动 / 净化交叉验证部分年度重训有 (Qlib)
收缩夏普比率
PBO / CSCV
HLZ 多重检验
相关性去重隐式$\tau_{\text{corr}}$$R_{\text{NOV}}$IC≥0.99AST

相关性去重是普遍存在的 — 它控制的是冗余。但这些机制中没有任何一个控制 选择偏差:即由所检查候选的庞大数量造成的最佳结果膨胀。 DSR、PBO 与 HLZ 折减做到了这一点,而相对于搜索本身,它们在计算上微不足道。

← 上一篇The LLM Research Loop 下一篇 →Alpha Agent 2.0