Skip to main content

预训练大模型与金融量化

作者:黄文灏 源地址:https://zhuanlan.zhihu.com/p/646909899

最近,和朋友讨论到一个有趣的观点:大模型预训练(主要指成本最大的from scratch预训练)和金融量化有很多相似之处。联想到之前幻方提到的做金融量化的人天然具备做预训练大模型的基础。恰好自己同时具有预训练大模型和金融量化的背景,仔细思考一下,发现的确可以做个对比。

大型的系统工程

大多数量化算法的核心数据是公开的量价数据,大模型预训练的数据中最重要的也是公开数据,当然各家都会有一些自己独有的数据来源,但占比都不太大。量化的整体算法逻辑各家其实也都差不多,类比预训练模型结构方面,大家也基本类似,不会有翻天覆地的差别。所以,决定模型能力好坏的其实是大型系统工程能力。

首先,作为大型系统工程,量化和大模型都需要大型的计算集群。上万张卡的互联是对Infra的极致挑战,国内在ChatGPT之前实现上万张卡互联的可能只有幻方的萤火平台,幻方的Infra人才基本上也是国内最顶尖的,里面各种NOI金牌选手。量化不仅需要大型的计算集群,对性能和效率也有极致的追求,大家的算法捕捉的交易机会其实很类似,这种情况下,交易指令的速度变得尤为关键,有使用网卡编程来追求最大化效率的。大模型虽然没有这么夸张,但是在infra层面的每一点提升,都可以带来不少的训练效率优化,也能更快的得到实验反馈,并得到持续提升。

其次,细节在大型系统工程中十分关键。量化交易系统中只有算法是完全不够的,整个系统包含交易执行、风控多个方面,任何一个环节的问题都会导致整个交易系统功败垂成。大模型预训练中,从数据到评估,也包含了大量的细节。除了已经形成普遍共识是谁的数据清洗地好,谁的模型效果就好,数据配比、数据顺序、训练策略等等小细节都对模型最后的结果起着重要的作用。

关键技术变得不公开

这个也是感触最深刻的点。金融量化是一个非常闭源的系统,各家的交易系统是最大的秘密武器,公开的部分非常少。现在大模型正在往这个方向发展,几个巨头的核心模型都开始走向闭源,最为各自最核心的秘密。OpenAI最新一代的GPT4,Google的Bard以及未来的Gemini短时间内都不会公开。这里肯定有人说Meta的LLaMA开源了啊,可以回到上一篇对于开源模型的思考。从预训练层面来看,Meta和OpenAI的差距极大,差不多差了一个代际吧。如果未来Meta发现大模型可以赚钱,也可能不会继续开源了。OpenAI未来可能也会开源上一代模型,有点像量化公司在用了更好的交易系统后把之前的交易系统公开一样。

【LLM系列】开源模型和闭源模型之争--写在LLaMA2 开源之后

在这一点上还有几个有趣的相似之处。1. 社区风风火火的开源工作对预训练模型的发展没有太大帮助。LLaMA2出来以后,整个开源社区基于LLaMA2做了大量的工作,但仔细回来看看都是基于预训练模型进行SFT,LoRA等微调工作,甚至连继续预训练的都不多。让人遗憾的是学术界的人也大多在做类似的是事情,摘这些low hanging fruits,很少有人能真正去做一些对预训练有帮助的事情,比如数据配比这种核心问题。最近ICML有一堆做SFT的,只有一两个研究数据配比的。这有点像金融量化领域发paper的都是不赚钱的算法。2. 学术界的工作不能应用到实际系统中。可以看很多量化的paper,特别是学术界做的paper,setting和实际交易系统有很大差别,虽然很多时候都是小细节的差别,但基本没有一篇paper的算法把setting调对了能在实际系统中赚钱的,读paper的用处只是用来启发自己做一些策略。学术界现在很多像Optimizer,数据配比之类的文章在小模型上都work地很好,可实际用来训练大模型的时候通通变得不work了。3. 研究人员也开始变得没有以前开放了。由于强烈的同质化竞争,研究人员的很多实验结论变得不能共享。毕竟,有些实验结论是花了几百万的真金白银得到的。现在和很多同行交流,基本上都是公司有规定信息不能共享。这也导致有价值的信息愈发封闭,没价值的信息快速传播。

各国国情给了本土化机会

很多Global的量化基金到了中国都会水土不服。同时,国家政策也规定了很多Global的量化基金没法在中国大规模开展业务。这就给了国内的很多量化基金崛起的机会,即使交易系统比国外顶尖机构有一些差距,但是只要在中国能保持领先,整体就会有不错的收益。大模型也是如此,OpenAI、Google、Meta的模型一方面中文能力比较一般,远没有英文能力强大,二没有对中国国情进行优化,不符合政策要求。这给了国内的大模型公司做大模型预训练的机会,只要做到国内第一,即使和世界领先的模型有一个代际差,也是不小的市场。当然,这样的情况,不止在中国,在世界很多国家都会存在。所以,面向各国政府做基础大模型本土化预训练是个不小的市场。

由此引申的另一个相似之处就是受政策影响极大。国内量化基金的几个大起大落基本都和政策有关,大模型的发展也和国家的相关办法息息相关。同时,两者都需要收到有效监管才能健康发展。

其他

除了上面几个感受比较深刻的,大模型预训练和金融量化还有不少相似之处,就不一一展开了

  • 少数精英的人赚大量的钱。做大模型不用很多人,但每个人都必须绝顶聪明。
  • 核心问题一样。下一个token预测和下一个股价预测其实是一个问题。
  • 都需要大量数据。
  • 都追求可解释性。
  • 。。。。。。

最后,希望大模型能和量化金融一样,市场足够大到几家头部机构是不能完全吃下的,能给多个大模型公司机会。现在国内有上百家量化基金,规模有大有小,大模型公司也能百花齐放。