投资与风险管理(Investment & Risk Management)· 研究研讨班

Alpha Agent

从公式搜索(formula search)到自我改进的研究智能体(self-improving research agents)——一部自动化 alpha 发现(automated alpha discovery)的谱系,分八篇长文阅读。每个专题都附上原论文的架构图、可即时 渲染的核心公式,以及关键处的代码。脉络从遗传规划(genetic programming)与强化学习(reinforcement learning),经生成–预测(generative–predictive)挖掘与生成流网络(GFlowNet),到新一代 LLM 研究 循环——并在最后落到文献普遍忽略的方法论脊柱,再给出"循环下一步该优化什么"的提案与一个实盘案例。

“围绕智能体(agents)的热度甚至超出了我的预期。循环(loops)是下一步——三到六个月内,每个人都会 运行自我改进的循环。不再需要提示词(prompting)。” — 转述 Andrew Ng 关于智能体工作流的论述(2026)

第一部分 — 谱系(The genealogy)
1
概览 — 从提示词到循环(From Prompting to Loops)

主旨,以及整个领域所处的两条轴线:公式搜索 vs. 任务搜索;横截面 IC vs. 条件事件概率。

约 25 分钟 · 立论
2
公式搜索时代 — AlphaEvolve 与 AlphaGen

基于表达式树的遗传规划(SIGMOD 2021),随后是以协同组合为奖励的 RL/PPO(KDD 2023)。

约 35 分钟 · GP · RL
3
AlphaForge — 生成–预测挖掘 + 动态组合

由代理模型评分的生成器、一个多样性损失,以及每日 OLS 的动态组合器——外加对官方代码库的拆解。

约 45 分钟 · AAAI 2025 · 代码
4
AlphaSAGE — 生成流网络与结构感知搜索

以与奖励成比例的方式采样公式以获得多样性,并在公式的抽象语法树(AST)上使用 RGCN。

约 30 分钟 · ICLR 2026
5
LLM 研究循环 — RD-Agent(Q) 与 AlphaAgent

闭合"假设→实现→回测→反馈"循环:因子–模型联合优化(NeurIPS 2025)与抗衰减挖掘(KDD 2025)。

约 40 分钟 · 智能体转向
第二部分 — 纪律与下一步(Discipline & the next step)
6
抗过拟合脊柱 — DSR、PBO、HLZ

上述每个系统都略去的选择偏差工具箱:收缩夏普比率、回测过拟合概率、多重检验折减。

约 35 分钟 · 方法论
7
Alpha Agent 2.0 — 条件化、事件驱动、收缩门控

提案:一个在预测任务上搜索、以事件为条件、预测 P(有利 | 特征) 的智能体,并把收缩内嵌进循环。

约 25 分钟 · 提案
第三部分 — 应用(Application)
8
案例研究 — 将 AlphaForge 应用于通用行业排序 Alpha

行业专家混合(Mixture of Sector Experts):把研讨班方法用到一个实盘模型上。AlphaForge 作为动态组合器(而非生成器)、改造后的数学,以及过拟合究竟在哪、又不在哪。

约 35 分钟 · 应用