Overview: From Prompting to Loops — Alpha Agent

为什么经典流水线会失效

经典的流水线（pipeline）是这样的：由人来撰写关于价格和成交量的数学表达式，保留其中信息系数（Information Coefficient, IC）高的那些，再用固定权重把它们组合起来。这一领域的进步，本质上是对该搜索过程的逐步自动化——先是遗传规划（genetic programming, GP），然后是强化学习（reinforcement learning, RL），再到神经生成器（neural generators）。但工作的基本单元正在转移。正如吴恩达（Andrew Ng）所言，下一步不是一个更好的提示词（prompt），而是一个能够自我改进的循环（loop）。

考虑一种具体的失败模式。假设一位量化研究员挖掘了 200 个公式化阿尔法（formulaic alpha），保留其中 IC 最高的 20 个，然后用在校准时刻冻结的等权或逆方差（inverse-variance）权重将它们组合起来。如果这 20 个因子之间的协方差结构发生漂移—— 这在宏观（macro）体制切换、财报季或流动性冲击前后是常态——那么这个固定权重的信号组合可能遭遇比任何单一成分更糟糕的回撤（drawdown）。一个 IC 加权组合 $\hat{y}_t = \sum_j \bar{\text{IC}}_j\, f_j(\mathbf{X}_t)$ 把每个阿尔法的历史平均预测相关性作为永久权重赋予它。当阿尔法 $j$ 进入一段均值回归（mean reversion）期（连续数周 IC 为负）时，它那个陈旧的正权重会加剧亏损，而不是抑制亏损。这并非假想的边缘情形：AlphaForge（专题三）在实证上证明了，对活跃因子集进行每日重新筛选与重新加权，在 CSI300 和 CSI500 上以很大优势超越了同一阿尔法池在固定组合下的表现。

当搜索本身是一次性（one-shot）的时候，问题会进一步加深。一个运行 $G$ 代之后输出一个因子池就关闭的遗传程序或 RL 智能体，无法对新数据、新市场结构或新算子（operator）想法做出反应。它无法读取自身的回测诊断信息，进而决定更改标签（label）定义或特征集（feature set）。它也无法察觉某个模式（pattern）在信息技术（Information Technology）板块有效、但在医疗保健（Health Care）板块却反转，并据此拆分假设。这些都是判断性的决策——直到不久前，只有人类研究员才能做出——而一个设计得当的智能体循环如今已能对其加以近似。

"智能体循环"具体意味着什么

智能体循环（agentic loop）并不是简单地在流水线之上画一个反馈箭头。流水线执行的是固定序列：生成候选、评估、过滤、输出。而循环则增加了流水线所不具备的三种能力：

反思（Reflection）。系统读取自身评估步骤的输出——不仅是一个标量奖励，而是结构化的诊断信息（IC 衰减曲线、行业层面的拆解、与现有信号的相关性）——并利用这些信息来修改它下一步提出的内容。
分支（Branching）。基于诊断信息，循环不仅可以改变公式，还可以改变研究问题（research question）本身：从搜索一个动量（momentum）因子转向搜索一个均值回归因子，或把预测期限（prediction horizon）从 5 天改为 21 天，或把一个跨市场假设拆分为按行业划分的子假设。
记忆（Memory）。成功与失败的假设会累积进一个知识库，用以约束未来的提议。这能防止系统反复探索死胡同，并让它在既有成功之上进行组合式构建——这是一种在假设空间上的课程学习（curriculum learning）。

下方的 SVG 图展示了本研讨会所主张的五节点循环。请注意，橙色节点——收缩与把关（Deflate & gate）—— 并未出现在我们将在专题二至专题五中研究的六个系统中的任何一个里。这一缺失正是本研讨会所要处理的核心方法论缺口。

本研讨会所主张的智能体循环。橙色节点——收缩与把关（deflate & gate）——正是当前文献所遗漏的部分（专题六）。

一段简短的谱系：五年，五个系统

专题二至专题五将详细拆解的这段谱系，可以压缩成一条单一的叙事主线。每一步都把上一步留给人类去做的某件事自动化了。

2021 — AlphaEvolve (SIGMOD)在一个扩展的算子空间（标量、向量、矩阵）上进行遗传规划，配合锦标赛选择（tournament selection）与基于相关性的剪枝。它自动化了公式变异（formula mutation）这一步，但把组合、评估和假设生成留给了用户。

↓

2023 — AlphaGen (KDD)用 RL（PPO）取代了进化式搜索：一个 LSTM 策略生成公式词元（token），而奖励是组合后阿尔法池的 IC，而非单个因子的 IC。它把协同组合（synergistic combination）自动化为搜索目标的一部分。

↓

2025 — AlphaForge (AAAI)引入了一种生成-预测（generative-predictive）架构：一个神经生成器通过 Gumbel-Softmax 提出公式，一个代理预测器（surrogate predictor）以低成本对其打分，一个多样性损失（diversity loss）防止模式坍缩（mode collapse）。关键在于，组合阶段变成了动态（dynamic）的——因子按近期 IC/ICIR 阈值每日重新筛选、重新加权。

↓

2026 — AlphaSAGE (ICLR)把 RL 策略换成了一个生成流网络（GFlowNet），它以与奖励成正比的概率对公式进行采样，从而产生一个天然多样化的组合。一个作用在公式抽象语法树（abstract syntax tree, AST）上的 RGCN 编码器，捕捉到了序列式（LSTM）编码器所忽略的数学结构。

↓

2025 — RD-Agent(Q) (NeurIPS) 与 AlphaAgent (KDD)大语言模型循环（LLM-loop）的一代。RD-Agent(Q) 在一个闭环中联合优化因子与模型架构，并用汤普森采样（Thompson sampling）决定是探索新因子还是探索新模型。AlphaAgent 增加了三种正则化机制（AST 原创性、假设-因子对齐、复杂度控制）以抵抗阿尔法衰减（alpha decay）。两个系统生成的都是任意 Python 代码，而非固定文法（fixed-grammar）的公式——这极大地扩展了搜索空间。

主线很清晰：每一代都多自动化了一项人类的判断性决策。但这一谱系中的每个系统都共享同一个预测目标—— 横截面（cross-sectional）收益排名，以 IC 来评分——并且没有一个对搜索过程中评估过的数千乃至数百万个候选施加正式的多重检验（multiple testing）校正。

两条坐标轴

本研讨会中的每个系统都是某一条轴上的一个点，并且大多只是第二条轴上的单一一个点。请在通篇阅读中始终把这两条轴放在心里。

轴 1 — 搜索的对象公式（formula） $f$（AlphaEvolve → AlphaSAGE） vs. 研究任务本身——选哪个假设、哪个标签、哪个特征集（RD-Agent(Q)、AlphaAgent，以及专题七）

→

轴 2 — 预测的对象横截面收益排名，以 IC 评分（全部六篇论文） vs. $P(\text{favorable event}\mid\text{features})$——元标签（meta-labeling）（专题七）

轴 1 细解：公式搜索 vs. 任务搜索

在轴 1 的左端，系统是在一个施加于 OHLCV 字段的数学算子固定文法之内进行搜索。一个典型的被发现公式可能长这样：

$f(\mathbf{X}_t) = \text{rank}\bigl(\text{ts\_corr}(\text{close},\, \text{volume},\, 10)\bigr) - \text{ts\_mean}\bigl(\text{ts\_std}(\text{returns},\, 20),\, 5\bigr)$

这是一棵表达式树（expression tree）：从价格/成交量历史到一个横截面分数的确定性映射。搜索空间在组合意义上很大（AlphaEvolve 每次运行探索 $\sim 10^6$ 个候选），但在结构上却很窄：算子词汇表、输入特征、标签（次日或次月收益排名）、以及评估指标（IC），在搜索开始前都已固定。系统只能发现该计算什么，而不能发现该问什么问题。

在轴 1 的右端，系统搜索的是研究任务本身。RD-Agent(Q) 可以决定把模型架构从 LightGBM 改成一个两层 MLP，或者加入一个原始设定中没有的新特征类别（例如分析师上调修正的广度）。AlphaAgent 可以生成假设 "财报后漂移（post-earnings drift）在分析师覆盖度低的小盘股中更强"，然后写 Python 代码来检验它—— 这是一个任何固定文法都无法表达的假设，因为它涉及对一个离散事件（财报发布）的条件化、一个横截面划分（市值十分位）、以及一个调节变量（分析师人数）。

轴 2 细解：收益排名 vs. 条件事件概率

谱系中的每个系统都优化同一个目标：给定今日 $N$ 只股票的特征 $\mathbf{X}_t$，预测哪些股票在前向收益 $\mathbf{y}_{t+\Delta}$ 上排名最高。评估指标是 IC——预测排名与实现排名之间的横截面皮尔逊（Pearson）或斯皮尔曼（Spearman）相关。 IC 为 0.05 意味着该信号在任一交易日大约解释了横截面收益方差的 0.25%：对一个大型组合而言有用，但充满噪声、缺乏区分度，并且对一只股票为何在波动毫无洞察。

另一条路——轴 2 的上端——是预测在某个已识别事件条件下出现特定有利结果的概率。例如：

条件事件概率示例。 在一只信息技术股票上检测到一次盘整突破（consolidation breakout）。无条件基准率（unconditional base rate）（所有 IT 盘整突破中，有多少比例会在触及止损之前先有利地首次触及止盈障碍？）假设为 54%。一个在突破前特征（相对成交量、隐含波动率分位、距上次财报的天数、过去 30 天内的内部人买入）上训练的条件模型，输出 $\hat{P}(\text{favorable}\mid\text{features}) = 0.68$。只有当条件概率超过某个阈值时才入场交易，而仓位大小正比于估计的优势（edge）$(\hat{P} - 0.50)$ 除以实现波动率。评估指标是条件提升（conditional lift）：模型选出的子集是否比无条件基准率取得了更高的胜率和更高的平均收益？

这在结构上就是元标签（Lopez de Prado, 2018）：一个主模型（模式检测器）生成候选交易，一个次级模型（条件概率估计器）决定对哪些候选采取行动、以及承担多大风险。预测目标是 $P(\text{favorable}\mid\text{event},\text{features})$，而不是一个横截面排名。

为什么这一领域沿轴 1 不断上移，却始终被钉在轴 2 的底端？一个原因是基准惯性（benchmarking inertia）：六篇论文中有四篇使用的 Qlib 平台，把评估硬编码为多空（long-short）每日再平衡组合上的 IC/ICIR/夏普比率（Sharpe ratio）。更改预测目标需要更改整个评估流水线、标签构造和特征装配——这比替换搜索算法是一项更重的活。第二个原因是数据：条件模型需要按时点（point-in-time）连接的事件级数据库（FDA 日历、财报时间戳、内部人申报、模式检测器），而不仅仅是每日 OHLCV 矩阵。构建并维护这些数据库，正是轴 2 研究必须解决的基础设施瓶颈。

什么样的循环才值得信赖

一个自主地提出、回测并保留阿尔法信号的循环，按其构造本身就是一台多重检验机器（multiple-testing machine）。如果该循环在其生命周期内评估了 10,000 个候选假设，并保留其中夏普比率最高的 20 个，那么这 20 个幸存者所报告的业绩会因选择偏差（selection bias）而向上偏高——即便每一次单独的回测在方法上都是正确的（滚动前推（walk-forward）、净化（purged）、隔离期（embargo））。问题不在于任何单次回测是否诚实，而在于这个多中选优（best-of-many）的结果，是否能与纯粹运气在 10,000 次无技能试验中所产生的结果区分开来。

有三种工具可以回答这个问题。专题六将完整展开它们；这里先预览每一种及其在循环中的作用：

收缩夏普比率（Deflated Sharpe Ratio, DSR）。给定 $N$ 个候选策略，及其观测到的偏度 $\hat{\gamma}_3$ 和峰度 $\hat{\gamma}_4$，DSR 计算"观测到的最佳夏普超过 $N$ 个无技能策略的期望最大夏普"的概率。一个在评估了 $N = 5{,}000$ 个候选后保留了原始夏普 1.2 的信号的循环，可能会发现 DSR $< 0.5$—— 意味着该结果更可能是噪声而非技能。
回测过拟合概率（Probability of Backtest Overfitting, PBO）。组合对称交叉验证（CSCV）把回测划分为 $2S$ 个区块，检验所有 $\binom{2S}{S}$ 种样本内/样本外（in-sample / out-of-sample）划分，并度量样本内最优策略在样本外排名低于中位数的频率。PBO $> 0.5$ 是一个危险信号：回测很可能过拟合（overfitting）。这是无模型（model-free）且非参数的。
Harvey-Liu-Zhu (HLZ) $t$ 统计量折减（haircut）。如果已经检验了 $M$ 个因子（包括循环曾经评估过的所有候选，而不仅是被保留的那些），那么显著性阈值就从朴素的 $t > 2.0$ 上升到大约 $t > \Phi^{-1}(1 - 0.05 / 2M)$。对 $M = 5{,}000$ 而言，这大约是 $t > 3.9$。这一谱系中的六篇论文没有一篇报告经过调整的 $t$ 统计量。

那个令人不安的缺口。这一谱系中的每个系统都评估了 $10^3$ 到 $10^6$ 个候选阿尔法，并为幸存者报告原始 IC 或夏普。没有一个计算 DSR、PBO，或 HLZ 调整后的 $t$ 统计量。相对于搜索本身，这些校正在计算上是微不足道的——它们的缺失是一个方法论缺口，而非一个计算缺口。一个值得信赖的循环必须把收缩（deflation）嵌入为一等公民式的把关节点（上图中的橙色节点），而不是事后补做，或干脆完全省略。

一个设计良好的循环不仅把这些工具当作最终过滤器，更把它们当作一个导向信号（steering signal）：如果 DSR 偏低，循环应当通过缩小搜索空间、提高最小回测长度，或切换到一个不同的预测任务来回应—— 而不是丢弃该结果、盲目生成更多候选（那只会进一步抬高 $N$）。

定义这一转折的两个断点

有两个具体的断点标志着从流水线到循环的转折。第一，组合变成了动态的：AlphaForge（专题三）表明，在一个非平稳（non-stationary）市场中，固定权重是站不住脚的——因子必须随条件变化而重新筛选、重新加权。它的动态组合器每日按近期 IC 与 ICIR 阈值过滤活跃因子集，然后在幸存子集上重新拟合 OLS 权重。同一阿尔法池在静态组合下，在 CSI300 和 CSI500 上的年化收益都落后了 1.5 到 2 个百分点。第二，搜索变成了智能体式的： RD-Agent(Q) 和 AlphaAgent（专题五）用一个大语言模型取代了公式文法，由它提出假设、撰写代码、读取回测并修正—— 这是一个带有记忆和分支的闭环研究循环，而非一次性生成。

如何阅读其余部分

专题二至专题五沿着谱系展开，并提炼出每个系统实际优化的数学；每篇都附有论文原始的架构图。专题六是方法论的脊梁—— 那套本应对每个系统进行把关、却在所有系统中缺席的选择偏差工具箱。专题七是本研讨会的提案：循环接下来应当优化什么—— 带有按行业（per-sector）建模和内嵌收缩（deflation）的条件事件驱动型阿尔法。

通篇阅读时，请始终把两条轴放在视野里。读每篇论文时都问：它在轴 1（公式搜索 vs. 任务搜索）上处于何处？在轴 2 （收益排名 vs. 条件事件概率）上又处于何处？对全部六篇论文而言，答案都是：它们在轴 1 上推进前沿，却始终被钉在轴 2 的底端。本研讨会的论点是，下一个真正的增益在于轴 2：预测一个有利事件的条件概率，并秉持这样一条纪律—— 一个自主的、能生成假设的循环是一台多重检验机器，必须由收缩后的统计量来把关。

从提示词到循环（From Prompting to Loops）