← Alpha Agent · all topics
专题 7 · 提案

Alpha Agent 2.0

这一谱系最终汇聚到自主循环(autonomous loop)——但全部六个系统仍在搜索公式化的横截面(cross-sectional) 收益预测因子。下一步的收益来自另一条轴线:预测某个有利事件(event)发生的条件概率(conditional probability),让智能体在预测任务(task)本身上做搜索,并把选择偏差(selection bias)控制 内嵌进循环,使其无法自欺。

谱系把我们带到了哪里

专题 2–5 描绘了沿一条轴线稳步攀升的过程——自动化搜索——从遗传规划,到强化学习,到生成–预测网络与 GFlowNets,再到 LLM 研究循环。专题 6 表明整个技术栈共享一个盲点:它从不为"考察了多少个候选"做修正。 如今有两个事实约束着什么才算贡献。第一,"用 LLM 提出 alpha"已不再新颖——RD-Agent(Q) 与 AlphaAgent 早已闭环。第二,无论搜索多么精巧,每个系统预测的都是同一个对象:一个数字 $f(\mathbf{X}_t)$,意在与 远期收益 $\mathbf{y}_{t+\Delta}$ 在横截面上相关。目标从未改变。

这正是机会所在。"哪些股票会跑赢?"并非唯一可交易的问题,而且是最拥挤的那一个。一个不同且较少被开采的 问题是:在某个特定事件刚刚发生时——一次 FDA 决定、一次盈利意外、一次 FOMC 公布、一次放量跳空—— 其结果有利的概率是多少?

预测目标:一个条件事件概率

Alpha Agent 2.0 改变的是第 2 轴(Axis 2)(专题 1)。预测的不再是一个横截面分数,而是 以事件和特征(features)向量为条件的、经过校准的概率:

$$\widehat{p}=P\bigl(\text{favorable outcome}\mid \text{event},\,\text{features}\bigr).$$

这在结构上就是元标签(meta-labeling)(López de Prado, 2018):一条主规则触发(检测到事件 / 形态),然后由模型预测这一具体发生是否会盈利。我们只交易那些条件概率超过无条件基准率 (base rate)、且超出幅度能通过专题 6 各道关卡的发生。形式上,设基准率 $p_0=P(\text{favorable})$, 在以下子集上行动

$$\mathcal{S}=\bigl\{\,i : \widehat{p}_i \ge p_0 + \delta \;\text{and the subset's edge survives deflation}\,\bigr\},$$

并报告条件提升(conditional lift)——模型所选子集相对基准率的胜率(或收益)。若提升 $\approx 0$,则无论 AUC 看起来多好,模型都没有增加任何价值。

为什么这不是公式搜索。 公式化 alpha 是价/量的固定函数,以信息系数 (Information Coefficient, IC)评分。条件事件模型则是一个分类器,其输入是异质的 (价格、基本面、期权、新闻、内部人交易流),其标签(label)是特定于事件的结果, 其输出是一个概率而非排名。两者位于不同的轴线上。

循环

这一自主循环借用了 RD-Agent(Q) 的"假设→实现→回测→反馈"骨架(专题 5),但运行在更高一层:智能体不只 写一条公式,而是设计整个预测任务——哪个事件、哪个标签、哪个时间跨度、哪个行业——然后组装特征、训练, 并由收缩后的指标来评判。

1 · 提出一个预测任务"医疗保健行业的跳空上涨后续延续,以事件前的成交量 / 波动率 / 内部人买入为条件"——智能体选定事件、行业与时间跨度
2 · 设计标签三重障碍(triple-barrier)或某个特定于事件的结果函数;仅向前解析——无前视
3 · 组装特征(时点 point-in-time, PIT)来自结构化分桶——TR(技术/收益)· HC(医疗保健催化剂)· NT(新闻/文本/内部人)· FI(金融机构)· IN(工业/政府)——每个分桶都强制执行一份截至时点(as-of)契约
4 · 训练分行业的条件模型同一形态在不同行业会反转符号——IT 的突破/延续 vs. 医疗保健的均值回归——因此单一全局模型在构造上就是错的
5 · 回测 + 收缩净化(purged)、隔离(embargo)的滚动前推(walk-forward);DSR · PBO · HLZ 缩减作为头等关卡,而非事后补救
6 · 剪枝并记忆淘汰任何相对基准率条件提升为零、或未通过收缩检验的任务;幸存者进入记忆并为下一轮播种

为什么必须用分行业的条件模型

单一全局预测器假定某个形态在任何地方都意味着同样的东西。事实并非如此。在突破/延续制度(regime)下 (例如信息技术),创新高的走势往往会延续;在均值回归/事件制度下(例如医疗保健,由二元催化剂主导), 同样的走势却常常消退。全局模型把这些平均成噪声。以行业为条件——并在该行业的特征分桶上为每个行业训练 一个独立模型——正是让同一主信号承载相反元标签的关键。这是 alphalib 研究栈的实证骨架, 也是为什么循环的工作单元是一个 (事件,行业) 对,而不是一条公式。

新颖之处究竟在哪里

相对 RD-Agent(Q) 与 AlphaAgent,差异有三: (i) 预测目标是 $P(\text{favorable}\mid\text{event},\text{features})$, 而非横截面 IC; (ii) 搜索空间包含预测任务的选择——哪个事件、哪个标签、哪个行业—— 而不仅仅是公式; (iii) 抗过拟合修正作为关卡内嵌在循环内部,而非事后补做或干脆省略。前两点 让我们沿第 2 轴上移;第三点则是让一个自主的、能生成假设的循环值得信赖、而非沦为一台 p 值操纵机器的 纪律。

开放问题(本研讨班的研究议程)

与交易栈的衔接

这是 alphalib 的活跃前沿:检测 → 标签 → 特征(TR/HC/NT/FI/IN)→ 分行业条件模型 → 净化滚动前推 → 条件提升 vs. 基准率。AlphaForge 的第二阶段组合器(专题 3)可直接接入,作为逐日为 幸存任务定额并混合的组合层。栈中已经晋级的信号成为基线,智能体的新提案必须超越它们——比的是收缩后的 数字,而非毛数字。

系统搜索对象预测对象抗过拟合
AlphaEvolve … AlphaSAGE公式横截面 IC仅相关性去重
RD-Agent(Q), AlphaAgent公式 / 代码(LLM)横截面 IC去重;部分滚动前推
Alpha Agent 2.0预测任务$P(\text{favorable}\mid\text{event})$DSR · PBO · HLZ 内嵌循环

参考文献

López de Prado (2018), Advances in Financial Machine Learning, Wiley(元标签;净化交叉验证)。
Bailey & López de Prado (2014), The Deflated Sharpe Ratio, J. Portfolio Management。
Li et al. (2025), R&D-Agent-Quant, NeurIPS — arXiv:2505.15155
Tang et al. (2025), AlphaAgent, KDD — arXiv:2502.16789

← 上一篇抗过拟合的脊柱 下一篇 →案例研究:AlphaForge 用于行业排序器