本应为本研讨会中每一个系统设置门槛、却在所有系统中都缺席的选择偏差(selection bias)工具箱:收缩夏普比率(Deflated Sharpe Ratio, DSR)、回测过拟合概率(Probability of Backtest Overfitting, PBO),以及多重检验折减(haircut)。 相对于搜索本身,这些修正的成本极低;它们的缺席是一种选择,而非约束。
信息系数(Information Coefficient, IC)是横截面 alpha 评估的主力指标。 在每个再平衡日期 $t$,IC 度量信号的预测与可投资域中已实现的前瞻收益之间的 秩相关或线性一致程度。
$$\text{IC}_t=\rho\bigl(f(\mathbf{X}_t),\mathbf{y}_t\bigr),\quad \overline{\text{IC}}=\tfrac1T\textstyle\sum_t \text{IC}_t,\quad \text{RankIC}_t=\rho\bigl(r(f(\mathbf{X}_t)),r(\mathbf{y}_t)\bigr),\quad \text{ICIR}=\frac{\overline{\text{IC}}}{\sigma(\text{IC}_t)}.$$Pearson IC 对收益中的离群值敏感(单只股票翻三倍就可能主导相关性); Rank IC(Spearman)对此具有稳健性,是股票信号实盘评估的首选变体。 时间序列均值 $\overline{\text{IC}}$ 刻画的是预测的幅度,但它本身完全不能说明 这一幅度在不同时期之间有多稳定。
ICIR 是均值 IC 与其在各再平衡日期上标准差之比 — 它是信号层面上 收益的信息比率(Information Ratio)的类比。当你把它与组合构建联系起来时,其作用就清晰了。 根据主动管理基本法则(Fundamental Law of Active Management, Grinold 1989),组合层面的信息比率 近似为 $\text{IR} \approx \text{IC} \times \sqrt{\text{Breadth}}$。但这假定每一期的 IC 取值都是可比的。当 IC 波动较大(ICIR 较低)时,管理者面临两个问题。 其一,最优仓位规模在不同时期之间剧烈波动,产生换手与交易成本, 侵蚀净收益。其二,风险配置变得不可靠:一个 IC = 0.08 但 $\sigma(\text{IC}) = 0.40$(ICIR = 0.20)的信号会频繁出现大幅负 IC 的时期,触发 难以据以确定仓位规模的回撤。
具体来说,考虑两个信号:
信号 B 的平均 IC 高出 60%,但组合经理几乎总会偏好信号 A。 在 ICIR = 0.50 时,信号 A 在大约 $T \geq (1.96/0.50)^2 \approx 15$ 期之后即可在统计上与零区分开。信号 B 则需要 $(1.96/0.20)^2 \approx 96$ 期 才能达到同样的置信度。更重要的是,信号 A 可以支撑更大的仓位规模,而 不必承担连续数月负 IC 的风险——这种连续负 IC 会摧毁配置者的信心并触发 风险预算削减。在实务中,无论 IC 水平如何,配置者与多策略团队都把 ICIR $\geq$ 0.40 作为信号"可交易"的门槛。
假设你模拟 $N = 10{,}000$ 个随机交易策略,每个都在同一份 10 年数据集上运行。 每个策略都是纯噪声:其真实夏普比率为零。然而这 10,000 个中表现最好的那个策略 会展现出正的样本 Sharpe,仅仅因为你在选取 10,000 个含噪样本的最大值。 该最大值的期望随 $N$ 以及各个 Sharpe 估计的离散程度而增大。这并非微妙的 统计学奇趣;它是大多数回测策略在实盘交易中失败的一阶 解释。任何评估成千上万个候选并报告其中最佳者的系统,都在隐式地执行这种选择, 而胜出者的原始 Sharpe 恰恰被这一机制向上偏倚。
收缩夏普比率(DSR)框架分两个阶段处理这一问题:首先,它为单个策略的 Sharpe 相对于某个基准提供一个分布检验(概率夏普比率(Probabilistic Sharpe Ratio, PSR)); 然后,它把基准设为 $N$ 个无技能策略的期望最大 Sharpe (假策略定理(False Strategy Theorem)),从而得到一个计入整个搜索过程的 p 值。
给定从 $T$ 个收益观测中估计的样本 Sharpe $\widehat{SR}$,PSR 回答: 真实 Sharpe 超过某个基准 $SR^*$ 的概率是多少?在收益为 i.i.d. 的假设下 (通过引入高阶矩予以放宽),样本 Sharpe 具有一个近似的 标准误,它依赖于收益的偏度(skewness)$\hat\gamma_3$ 与峰度(kurtosis)$\hat\gamma_4$。
$$\text{PSR}(\widehat{SR};SR^*)=\Phi\!\left(\frac{(\widehat{SR}-SR^*)\sqrt{T-1}}{\sqrt{1-\hat\gamma_3\widehat{SR}+\frac{\hat\gamma_4-1}{4}\widehat{SR}^2}}\right).$$分子是标准的"$z$ 分数"形式:观测 Sharpe 与基准 Sharpe 之差,按 $\sqrt{T-1}$ 缩放(数据越多 $\Rightarrow$ 精度越高)。当收益为负偏 ($\hat\gamma_3 < 0$)或厚尾($\hat\gamma_4 > 3$,即超额 峰度 $> 0$)时,分母会放大标准误。这两种特征在策略收益中都是经验常见的:趋势跟踪策略 通常呈现正偏但厚尾;做空波动率与均值回归策略呈现负偏。 因此 PSR 会惩罚那些表面 Sharpe 被非正态性"美化"的策略。
各项的解读:
假策略定理(Bailey & López de Prado 2014)推导出在 $N$ 个独立同分布、 零技能试验中最佳策略的期望 Sharpe。若每个试验的 估计 Sharpe $\widehat{SR}_n$ 具有方差 $V[\widehat{SR}_n]$,则期望最大值为:
$$SR_0=\sqrt{V[\widehat{SR}_n]}\Bigl[(1-\gamma)\,\Phi^{-1}\!\bigl(1-\tfrac1N\bigr)+\gamma\,\Phi^{-1}\!\bigl(1-\tfrac{1}{Ne}\bigr)\Bigr],\quad \gamma\approx0.5772.$$此处 $\gamma$ 是欧拉–马歇罗尼常数(Euler-Mascheroni constant),$\Phi^{-1}$ 是标准正态分位数函数。 该公式是对 i.i.d. 标准正态变量的 $\mathbb{E}[\max_{n=1}^N Z_n]$ 的渐近近似, 并按 $\sqrt{V[\widehat{SR}_n]}$ 缩放。
$SR_0$ 如何随 $N$ 变化。 主导项是 $\Phi^{-1}(1 - 1/N)$,它随 $N$ 增长得 缓慢但持续不止。作为参照:
对于较大的 $N$,增长率约为 $\sqrt{2 \ln N}$(高斯次序统计量的 Gumbel 极限)。 这意味着把搜索空间翻倍并不会使偏差翻倍,但偏差也永不饱和。 候选数每增加一个数量级,门槛大约抬高 0.5–0.7 个 Sharpe 单位 (在 $\sqrt{V} \approx 1$ 时)。
DSR 是观测 Sharpe 超过期望的"$N$ 个噪声中最佳者"门槛的概率。DSR 高于 0.95(类比于 5% 显著性水平)表明该策略具有超出单纯选择所能解释的 真实技能。
考虑一条 AlphaForge 风格的流水线,它在 $T = 2{,}520$ 个日度观测(10 年)上评估 $N = 10{,}000$ 个候选公式。假设各试验之间估计 Sharpe 比率的标准差为 $\sqrt{V[\widehat{SR}_n]} = 0.30$(当策略在结构上足够多样时,这是一个现实的取值)。 那么:
Bailey、Borwein、López de Prado & Zhu(2017)的组合对称交叉验证(CSCV) 方法是一种非参数、无模型的回测过拟合检验。它提出一个直接的 问题:若我在数据的样本内(IS)部分上优化一个策略,这个样本内最佳策略 在样本外(OOS)是否也表现良好?若否 — 若样本内排名与样本外排名无关或 呈负相关 — 则该回测是过拟合的。
把完整的回测样本划分为 $2S$ 个不重叠、相邻、长度大致相等的时间块。 然后枚举所有 $\binom{2S}{S}$ 种把 $S$ 个块分配给样本内 子集、其余 $S$ 个块分配给样本外子集的方式。对于其中每一种组合 划分:
在穷尽所有 $\binom{2S}{S}$ 种划分后,PBO 即为样本内最优策略的样本外排名 落在中位数及以下的那部分划分所占的比例:
$$\text{PBO}=\Pr\bigl[\text{rank}_{\text{OOS}}(s^*_{\text{IS}})\le \text{median}\bigr].$$若回测没有过拟合(样本内优化挑选的是真正好的策略),样本内最佳者 在样本外也应排名靠前,PBO 应接近于零。若策略是纯噪声,样本内 排名与样本外排名相互独立,PBO 收敛到 0.50。PBO > 0.50 意味着样本内 优化主动挑选出在样本外差于随机的策略 — 这是 过拟合的典型标志,即优化器抓住了在样本外发生反转的样本内噪声。
该方法是无模型的:它不对收益作任何分布假设,不需要 策略空间的参数化模型,并且同等适用于公式化 alpha、机器学习模型与基于规则的 系统。它是对称的,因为每个时间块恰好在一半的样本内集合与一半的 样本外集合中出现。当 $2S$ 较小时(例如 $2S = 16$),$\binom{16}{8} = 12{,}870$ 种划分在计算上 微不足道。对于更大的 $S$,对 $\binom{2S}{S}$ 全集进行随机子抽样即已足够。
常规的显著性门槛 $t > 2.0$(对应双侧 $p < 0.05$) 控制的是单个假设检验的假阳性率。但当有 $M$ 个因子被 检验过 — 无论是同一研究者所为,还是文献中累积所致 — 族 错误率就会被放大。Harvey、Liu & Zhu(2016)记录到,到 2012 年,至少 约有 316 个因子已发表于经同行评审的金融期刊。在简单的 Bonferroni 校正下, 调整后的显著性门槛变为:
$$t_{\text{adj}}\ge\Phi^{-1}\!\Bigl(1-\tfrac{p}{2M}\Bigr),$$它把单次检验的 $p$ 值替换为 $p/M$(Bonferroni 调整后的水平)。代入 $p = 0.05$ 与 $M = 316$: $t_{\text{adj}} \geq \Phi^{-1}(1 - 0.05/(2 \times 316)) = \Phi^{-1}(1 - 7.91 \times 10^{-5}) \approx 3.78$。 即便是他们更为保守的推荐值 $t > 3.0$(考虑了相互相关的检验,这会削弱 Bonferroni 界),相对于常规门槛也已是大幅抬升。
Bonferroni 门槛随 $M$ 对数式增长,因为对于较小的 $c/M$ 有 $\Phi^{-1}(1 - c/M) \approx \sqrt{2 \ln(M/c)}$。在 $p = 0.05$ 时的一些参照值:
BHY 校正(Benjamini-Hochberg-Yekutieli)在检验相互相关时(因子不可避免如此) 比 Bonferroni 更不保守。它控制的是错误发现率(FDR)而非 族错误率。Harvey、Liu & Zhu 运用 BHY 推导出他们推荐的门槛 $t > 3.0$,该值考虑了已发表因子之间的经验相关结构。 但这一门槛是针对截至 2012 年约 316 个已发表因子校准的。一个 在单次运行中检验 10,000 多个候选的自动化系统面对的 $M$ 要大得多,而 BHY 调整后的门槛 也随之抬升。
选择偏差问题随所尝试假设的数量而升级。在传统研究 场景中,$N$ 受研究者时间所限:一名博士生在一个跨越数年的项目中可能检验 50–200 个因子 设定。像 AlphaEvolve 或 AlphaGen 这样基于进化或强化学习的系统 每次运行检验 $10^3$–$10^5$ 个候选,将 $SR_0$ 与 $t_{\text{adj}}$ 大幅抬高。 但由大语言模型驱动的自主循环 — 即 RD-Agent(Q) 与 AlphaAgent 的架构 — 则彻底移除了这一约束:该循环可以一天 24 小时、跨越无限多个周期地 生成、实现并评估假设,而没有自然的停止规则。
这对选择偏差有三个后果:
本研讨会中的每个系统都实现了某种基于相关性的去重:AlphaEvolve 修剪 两两相关 $|\rho| > \tau_{\text{corr}}$ 的候选;AlphaSAGE 惩罚低 $R_{\text{NOV}}$; RD-Agent(Q) 把 IC $\geq$ 0.99 标记为冗余;AlphaAgent 度量 AST 结构相似度。 这些机制处理的是冗余(redundancy):确保最终的 alpha 组合包含 真正不同的信号,而非同一预测变量的细微变体。
冗余控制是必要的,但不充分。它回答的是:"我幸存下来的各 alpha 彼此 不同吗?"它不回答:"如果我尝试更少的候选,我最好的 alpha 还会看起来这么好吗?" 后一个问题关乎选择偏差(selection bias),它需要完全 不同的工具:
一个系统可以拥有完美的去重(所有幸存 alpha 两两不相关),却仍然 严重过拟合——如果搜索曾检查了 100,000 个候选才找到那些幸存者。反之,一个 具有中等冗余但诚实收缩(DSR $>$ 0.95,PBO $<$ 0.20)的系统提供了远为有力的 真实预测内容证据。下方的覆盖表使这一差距清晰可见:每个系统 都在第一行(去重)上投入;却没有一个在第二、第三或第四行(收缩)上投入。
| 反过拟合工具 | AlphaEvolve | AlphaGen | AlphaForge | AlphaSAGE | RD-Agent(Q) | AlphaAgent |
|---|---|---|---|---|---|---|
| 前向滚动 / 净化交叉验证 | 部分 | 无 | 年度重训 | 无 | 有 (Qlib) | 无 |
| 收缩夏普比率 | 无 | 无 | 无 | 无 | 无 | 无 |
| PBO / CSCV | 无 | 无 | 无 | 无 | 无 | 无 |
| HLZ 多重检验 | 无 | 无 | 无 | 无 | 无 | 无 |
| 相关性去重 | 有 | 隐式 | $\tau_{\text{corr}}$ | $R_{\text{NOV}}$ | IC≥0.99 | AST |
相关性去重是普遍存在的 — 它控制的是冗余。但这些机制中没有任何一个控制 选择偏差:即由所检查候选的庞大数量造成的最佳结果膨胀。 DSR、PBO 与 HLZ 折减做到了这一点,而相对于搜索本身,它们在计算上微不足道。