Alpha Agent 2.0: Conditional, Event-Driven, Deflation-Gated — Alpha Agent

谱系把我们带到了哪里

专题 2–5 描绘了沿一条轴线稳步攀升的过程——自动化搜索——从遗传规划，到强化学习，到生成–预测网络与 GFlowNets，再到 LLM 研究循环。专题 6 表明整个技术栈共享一个盲点：它从不为"考察了多少个候选"做修正。如今有两个事实约束着什么才算贡献。第一，"用 LLM 提出 alpha"已不再新颖——RD-Agent(Q) 与 AlphaAgent 早已闭环。第二，无论搜索多么精巧，每个系统预测的都是同一个对象：一个数字 $f(\mathbf{X}_t)$，意在与远期收益 $\mathbf{y}_{t+\Delta}$ 在横截面上相关。目标从未改变。

这正是机会所在。"哪些股票会跑赢？"并非唯一可交易的问题，而且是最拥挤的那一个。一个不同且较少被开采的问题是：在某个特定事件刚刚发生时——一次 FDA 决定、一次盈利意外、一次 FOMC 公布、一次放量跳空—— 其结果有利的概率是多少？

预测目标：一个条件事件概率

Alpha Agent 2.0 改变的是第 2 轴（Axis 2）（专题 1）。预测的不再是一个横截面分数，而是以事件和特征（features）向量为条件的、经过校准的概率：

$$\widehat{p}=P\bigl(\text{favorable outcome}\mid \text{event},\,\text{features}\bigr).$$

这在结构上就是元标签（meta-labeling）（López de Prado, 2018）：一条主规则触发（检测到事件 / 形态），然后由模型预测这一具体发生是否会盈利。我们只交易那些条件概率超过无条件基准率（base rate）、且超出幅度能通过专题 6 各道关卡的发生。形式上，设基准率 $p_0=P(\text{favorable})$，在以下子集上行动

$$\mathcal{S}=\bigl\{\,i : \widehat{p}_i \ge p_0 + \delta \;\text{and the subset's edge survives deflation}\,\bigr\},$$

并报告条件提升（conditional lift）——模型所选子集相对基准率的胜率（或收益）。若提升 $\approx 0$，则无论 AUC 看起来多好，模型都没有增加任何价值。

为什么这不是公式搜索。 公式化 alpha 是价/量的固定函数，以信息系数（Information Coefficient, IC）评分。条件事件模型则是一个分类器，其输入是异质的（价格、基本面、期权、新闻、内部人交易流），其标签（label）是特定于事件的结果，其输出是一个概率而非排名。两者位于不同的轴线上。

循环

这一自主循环借用了 RD-Agent(Q) 的"假设→实现→回测→反馈"骨架（专题 5），但运行在更高一层：智能体不只写一条公式，而是设计整个预测任务——哪个事件、哪个标签、哪个时间跨度、哪个行业——然后组装特征、训练，并由收缩后的指标来评判。

1 · 提出一个预测任务"医疗保健行业的跳空上涨后续延续，以事件前的成交量 / 波动率 / 内部人买入为条件"——智能体选定事件、行业与时间跨度

↓

2 · 设计标签三重障碍（triple-barrier）或某个特定于事件的结果函数；仅向前解析——无前视

↓

3 · 组装特征（时点 point-in-time, PIT）来自结构化分桶——TR（技术/收益）· HC（医疗保健催化剂）· NT（新闻/文本/内部人）· FI（金融机构）· IN（工业/政府）——每个分桶都强制执行一份截至时点（as-of）契约

↓

4 · 训练分行业的条件模型同一形态在不同行业会反转符号——IT 的突破/延续 vs. 医疗保健的均值回归——因此单一全局模型在构造上就是错的

↓

5 · 回测 + 收缩净化（purged）、隔离（embargo）的滚动前推（walk-forward）；DSR · PBO · HLZ 缩减作为头等关卡，而非事后补救

↓

6 · 剪枝并记忆淘汰任何相对基准率条件提升为零、或未通过收缩检验的任务；幸存者进入记忆并为下一轮播种

为什么必须用分行业的条件模型

单一全局预测器假定某个形态在任何地方都意味着同样的东西。事实并非如此。在突破/延续制度（regime）下（例如信息技术），创新高的走势往往会延续；在均值回归/事件制度下（例如医疗保健，由二元催化剂主导），同样的走势却常常消退。全局模型把这些平均成噪声。以行业为条件——并在该行业的特征分桶上为每个行业训练一个独立模型——正是让同一主信号承载相反元标签的关键。这是 alphalib 研究栈的实证骨架，也是为什么循环的工作单元是一个 （事件，行业） 对，而不是一条公式。

新颖之处究竟在哪里

相对 RD-Agent(Q) 与 AlphaAgent，差异有三： (i) 预测目标是 $P(\text{favorable}\mid\text{event},\text{features})$，而非横截面 IC； (ii) 搜索空间包含预测任务的选择——哪个事件、哪个标签、哪个行业—— 而不仅仅是公式； (iii) 抗过拟合修正作为关卡内嵌在循环内部，而非事后补做或干脆省略。前两点让我们沿第 2 轴上移；第三点则是让一个自主的、能生成假设的循环值得信赖、而非沦为一台 p 值操纵机器的纪律。

开放问题（本研讨班的研究议程）

制度切换下的校准。 概率只有在经过校准时才可交易；事件在时间上成簇出现，校准会漂移。在线再校准 vs. 重新训练，仍是开放问题。
收缩的核算。 一个自主循环必须统计自身的试验次数，才能为收缩夏普比率（Deflated Sharpe Ratio, DSR）计算 $N$——包括它丢弃的那些假设。对搜索树进行诚实记账，本身就是一个研究问题。
经由事件计时的标签泄漏。 可变的事件日期（一个事后被修订的催化剂日期）会悄悄泄漏未来；截至时点契约必须使用披露日期，而非事件日期。
预注册（pre-registration）。 如果智能体既设计标签又评估它，那么标签/特征集必须在接触样本外数据之前冻结——调和"智能体设计任务"与"无过拟合"是最深层的开放问题，也可以说是最值得发表的那一个。

与交易栈的衔接

这是 alphalib 的活跃前沿：检测 → 标签 → 特征（TR/HC/NT/FI/IN）→ 分行业条件模型 → 净化滚动前推 → 条件提升 vs. 基准率。AlphaForge 的第二阶段组合器（专题 3）可直接接入，作为逐日为幸存任务定额并混合的组合层。栈中已经晋级的信号成为基线，智能体的新提案必须超越它们——比的是收缩后的数字，而非毛数字。

系统	搜索对象	预测对象	抗过拟合
AlphaEvolve … AlphaSAGE	公式	横截面 IC	仅相关性去重
RD-Agent(Q), AlphaAgent	公式 / 代码（LLM）	横截面 IC	去重；部分滚动前推
Alpha Agent 2.0	预测任务	$P(\text{favorable}\mid\text{event})$	DSR · PBO · HLZ 内嵌循环

参考文献

López de Prado (2018), Advances in Financial Machine Learning, Wiley（元标签；净化交叉验证）。
Bailey & López de Prado (2014), The Deflated Sharpe Ratio, J. Portfolio Management。
Li et al. (2025), R&D-Agent-Quant, NeurIPS — arXiv:2505.15155。
Tang et al. (2025), AlphaAgent, KDD — arXiv:2502.16789。