🐧
正在进入方糖的空间...

🐧 方糖的空间

AI · 量化 · 自由探索 | fangtang.icu

量化、模型训练与 LLM:同一套认识论

🐧
方糖 LV.16 ☀️ 太阳
📅
🏷️ 认知科学 AI 量化

做量化的人、训模型的人、搞大语言模型的人,以为自己在做三件不同的事。其实他们在同一口井里打水,只是换了个桶。

Alpha 不是想出来的,是试出来的

量化圈有个执念:alpha 来自”洞察”。分析师盯着K线图,灵光一闪,写出一个因子,回测曲线完美,然后实盘崩了。

真相是什么?Alpha 本质上是一个概率事件。 你找到的那个”有效因子”,有极大的可能只是随机波动的巧合。你展示给 LP 看的那条回测曲线,是无数试错之后幸存下来的那条——这叫幸存者偏差,也叫 p-hacking。

展示的是分布的右尾,你买到的是整个分布。

这句话残忍,但精确。量化基金卖的不是”我们找到了规律”,而是”我们有一套系统化的试错机制”。好的量化团队和差的量化团队,区别不在于谁更聪明,而在于谁试得更快、错得更多、活得更久。

三件事,三行代码

抛开所有术语,模型训练就三件事:

  1. 准备数据——数据质量决定了模型的上限
  2. 训练——让模型从数据中提取统计规律
  3. 防止过拟合——确保这些规律在未见过的数据上仍然有效

量化做的不也是这三件事?找因子(准备数据)、回测(训练)、样本外检验(防止过拟合)。LLM 做的不还是这三件事?收集语料(准备数据)、预训练(训练)、对齐/RLHF(防止过拟合——本质上是防止模型在训练分布上表现太好,而在真实场景下崩掉)。

形式不同,内核一致。放弃因果,只追求统计相关。

没有人真的”理解”为什么某个 transformer 的 attention head 在第 17 层学到了某个模式。就像没有人真的”理解”为什么动量因子在过去 30 年有效。它们有效,因为在数据中,这个模式以足够的频率出现。

因果是奢侈品,相关是必需品。

过拟合是制度性问题

过拟合不是一个技术 bug,它是一个制度 bug。

在量化领域,基金经理的激励结构天然鼓励过拟合——你需要漂亮的回测去募资,而漂亮的回测几乎必然包含某种程度的过拟合。在深度学习领域,论文发表的压力同样鼓励过拟合——你需要 SOTA 的 benchmark 去拿 acceptance,而 benchmark 刷分本身就是一种过拟合。

任何系统只要奖励”在历史数据上表现好”,就会产生过拟合。 这不是人性的弱点,这是激励结构的必然结果。

所以真正重要的不是”如何避免过拟合”(你避免不了),而是”如何建立一个对过拟合有容错的系统”。量化靠多样性和衰减,深度学习靠正则化和 dropout,本质都是在说同一句话:别太相信你看到的规律。

微调:1000 条就够了

很多对 LLM 微调有误解的人,觉得需要百万级的数据。不需要。

1000 到 10000 条高质量数据就够。 关键词是”高质量”。

这里的逻辑和量化完全一样:你不需要 10000 个因子,你需要 3 个真正有效的。你不需要 100 万条微调数据,你需要 1000 条让模型准确理解你意图的数据。多就是少,少就是多。

为什么?因为模型在预训练阶段已经学过了几乎所有知识。微调要做的不是教它新东西,而是精确地对齐它的输出分布,让它知道”在这种场景下,这种回答是对的”。

这和量化中”因子挖掘”的逻辑一模一样:市场已经包含了所有信息,你要做的不是发现新信息,而是从已有信息中提取一个不对称的视角。

LLM 不在想,它在算

我见过太多人把 LLM 的输出当作”思考的结果”。它不是。

当你问 ChatGPT 一个问题,它不是在”思考”答案,它是在计算下一个 token 的概率分布。这个过程和量化模型计算某个因子对收益的预测概率,没有任何本质区别。

  • 量化模型:给定历史数据,计算未来收益的概率分布
  • LLM:给定上下文,计算下一个 token 的概率分布

一个是预测价格,一个是预测文字。方法论完全一样。

这个认知很重要,因为它决定了你该以什么方式使用这些工具。你不会问一个量化模型”你觉得为什么今天涨了”,同样,你也不应该把 LLM 的解释当作某种深层推理的产物——它只是在生成统计上最合理的续写。

真正的壁垒在数据

AI 时代,真正的壁垒不在模型,在数据。

模型是开源的,训练方法是公开的,推理成本在持续下降。但你的数据——你积累的业务经验、你的用户行为日志、你的领域知识库——这些是别人拿不走的。

量化的壁垒从来不在算法,在数据源。谁有更好的另类数据,谁就有 edge。深度学习的壁垒在数据集——ImageNet 改变了整个计算机视觉领域。LLM 的壁垒同样在数据——高质量的专业领域数据,比模型架构本身值钱得多。

所以我的建议很简单:停止追逐模型,开始积累数据。 模型会贬值,数据会升值。这是过去十年量化和深度学习共同验证的规律,LLM 不会是例外。

同一口井

量化、模型训练、LLM——三群不同的人,三个不同的圈子,说着三种不同的行话。但他们在做的,是同一件事:

从噪声中提取信号,从历史中预测未来,从相关中逼近真相。

放弃因果的幻觉,拥抱相关的能力。承认自己不知道”为什么”,但有能力利用”是什么”。这就是统计学习的认识论,也是我们这个时代最强大的认知工具。

理解这一点,你就能看穿很多 hype。模型不是在”理解”世界,因子不是在”解释”市场。它们在做一件更朴素也更诚实的事:找到那些反复出现的模式,然后下注。

👁️ -- 阅读 ❤️ 感谢阅读
2026年4月18日
🎵
晴天
周杰伦
0:00
0:00