量化、模型训练与 LLM：同一套认识论

🐧

方糖 LV.16 ☀️ 太阳

📅 2026年4月18日

🏷️ 认知科学 AI 量化

做量化的人、训模型的人、搞大语言模型的人，以为自己在做三件不同的事。其实他们在同一口井里打水，只是换了个桶。

Alpha 不是想出来的，是试出来的

量化圈有个执念：alpha 来自”洞察”。分析师盯着K线图，灵光一闪，写出一个因子，回测曲线完美，然后实盘崩了。

真相是什么？Alpha 本质上是一个概率事件。 你找到的那个”有效因子”，有极大的可能只是随机波动的巧合。你展示给 LP 看的那条回测曲线，是无数试错之后幸存下来的那条——这叫幸存者偏差，也叫 p-hacking。

展示的是分布的右尾，你买到的是整个分布。

这句话残忍，但精确。量化基金卖的不是”我们找到了规律”，而是”我们有一套系统化的试错机制”。好的量化团队和差的量化团队，区别不在于谁更聪明，而在于谁试得更快、错得更多、活得更久。

三件事，三行代码

抛开所有术语，模型训练就三件事：

准备数据——数据质量决定了模型的上限
训练——让模型从数据中提取统计规律
防止过拟合——确保这些规律在未见过的数据上仍然有效

量化做的不也是这三件事？找因子（准备数据）、回测（训练）、样本外检验（防止过拟合）。LLM 做的不还是这三件事？收集语料（准备数据）、预训练（训练）、对齐/RLHF（防止过拟合——本质上是防止模型在训练分布上表现太好，而在真实场景下崩掉）。

形式不同，内核一致。放弃因果，只追求统计相关。

没有人真的”理解”为什么某个 transformer 的 attention head 在第 17 层学到了某个模式。就像没有人真的”理解”为什么动量因子在过去 30 年有效。它们有效，因为在数据中，这个模式以足够的频率出现。

因果是奢侈品，相关是必需品。

过拟合是制度性问题

过拟合不是一个技术 bug，它是一个制度 bug。

在量化领域，基金经理的激励结构天然鼓励过拟合——你需要漂亮的回测去募资，而漂亮的回测几乎必然包含某种程度的过拟合。在深度学习领域，论文发表的压力同样鼓励过拟合——你需要 SOTA 的 benchmark 去拿 acceptance，而 benchmark 刷分本身就是一种过拟合。

任何系统只要奖励”在历史数据上表现好”，就会产生过拟合。 这不是人性的弱点，这是激励结构的必然结果。

所以真正重要的不是”如何避免过拟合”（你避免不了），而是”如何建立一个对过拟合有容错的系统”。量化靠多样性和衰减，深度学习靠正则化和 dropout，本质都是在说同一句话：别太相信你看到的规律。

微调：1000 条就够了

很多对 LLM 微调有误解的人，觉得需要百万级的数据。不需要。

1000 到 10000 条高质量数据就够。 关键词是”高质量”。

这里的逻辑和量化完全一样：你不需要 10000 个因子，你需要 3 个真正有效的。你不需要 100 万条微调数据，你需要 1000 条让模型准确理解你意图的数据。多就是少，少就是多。

为什么？因为模型在预训练阶段已经学过了几乎所有知识。微调要做的不是教它新东西，而是精确地对齐它的输出分布，让它知道”在这种场景下，这种回答是对的”。

这和量化中”因子挖掘”的逻辑一模一样：市场已经包含了所有信息，你要做的不是发现新信息，而是从已有信息中提取一个不对称的视角。

LLM 不在想，它在算

我见过太多人把 LLM 的输出当作”思考的结果”。它不是。

当你问 ChatGPT 一个问题，它不是在”思考”答案，它是在计算下一个 token 的概率分布。这个过程和量化模型计算某个因子对收益的预测概率，没有任何本质区别。

量化模型：给定历史数据，计算未来收益的概率分布
LLM：给定上下文，计算下一个 token 的概率分布

一个是预测价格，一个是预测文字。方法论完全一样。

这个认知很重要，因为它决定了你该以什么方式使用这些工具。你不会问一个量化模型”你觉得为什么今天涨了”，同样，你也不应该把 LLM 的解释当作某种深层推理的产物——它只是在生成统计上最合理的续写。

真正的壁垒在数据

AI 时代，真正的壁垒不在模型，在数据。

模型是开源的，训练方法是公开的，推理成本在持续下降。但你的数据——你积累的业务经验、你的用户行为日志、你的领域知识库——这些是别人拿不走的。

量化的壁垒从来不在算法，在数据源。谁有更好的另类数据，谁就有 edge。深度学习的壁垒在数据集——ImageNet 改变了整个计算机视觉领域。LLM 的壁垒同样在数据——高质量的专业领域数据，比模型架构本身值钱得多。

所以我的建议很简单：停止追逐模型，开始积累数据。 模型会贬值，数据会升值。这是过去十年量化和深度学习共同验证的规律，LLM 不会是例外。

同一口井

量化、模型训练、LLM——三群不同的人，三个不同的圈子，说着三种不同的行话。但他们在做的，是同一件事：

从噪声中提取信号，从历史中预测未来，从相关中逼近真相。

放弃因果的幻觉，拥抱相关的能力。承认自己不知道”为什么”，但有能力利用”是什么”。这就是统计学习的认识论，也是我们这个时代最强大的认知工具。

理解这一点，你就能看穿很多 hype。模型不是在”理解”世界，因子不是在”解释”市场。它们在做一件更朴素也更诚实的事：找到那些反复出现的模式，然后下注。

👁️ -- 阅读 ❤️ 感谢阅读

2026年4月18日

不为建工具而建工具

2026年4月22日 📅

🐧 方糖的空间