西南證券(600369)股份有限公司博士后研究人員、權(quán)益投資一部交易員 慕宗燊
摘要
2025年中國(guó)A股市場(chǎng)風(fēng)險(xiǎn)偏好顯著提升,增量資金持續(xù)入場(chǎng),助推A股呈現(xiàn)穩(wěn)步上行趨勢(shì)。中小盤風(fēng)格表現(xiàn)尤為亮眼,量化模型借技術(shù)優(yōu)勢(shì)超額收益顯著領(lǐng)先指數(shù)。目前,大多數(shù)量化多因子模型對(duì)橫截面收益率預(yù)測(cè)采用均方誤差的損失函數(shù)進(jìn)行模型優(yōu)化,這種方法追求精確值預(yù)測(cè),對(duì)極端值敏感,并不能直接衡量股票間的排序結(jié)果,因此導(dǎo)致策略模型在選擇頭部股票的時(shí)候,缺乏區(qū)分力度,多頭策略的表現(xiàn)欠佳。本文提出了一種基于排序?qū)W習(xí)的LightGBM選股模型,通過LightGBM模型對(duì)多因子進(jìn)行非線性關(guān)系的組合,利用LambdaRank排序?qū)W習(xí)算法對(duì)橫截面股票收益進(jìn)行最大化排序一致性的優(yōu)化,通過引入位置感知機(jī)制、靈活利用標(biāo)注類型,使模型直接輸出股票間相對(duì)序位匹配組合構(gòu)建邏輯,提升對(duì)頭部股票的關(guān)注度,實(shí)現(xiàn)多頭策略的改善。在中國(guó)A股市場(chǎng)的實(shí)驗(yàn)表明,基于排序?qū)W習(xí)的機(jī)器學(xué)習(xí)算法可有效提升投資組合的夏普比率。
1.引言
2025年中國(guó)A股市場(chǎng)正處于“結(jié)構(gòu)性緩慢上行行情”的啟動(dòng)階段,其核心驅(qū)動(dòng)力源于政策逆周期(883436)調(diào)節(jié)加碼與市場(chǎng)流動(dòng)性持續(xù)寬松的雙重支撐。一方面,貨幣政策延續(xù)寬松基調(diào),央行通過降準(zhǔn)降息推動(dòng)企業(yè)融資成本降至歷史低位,并配合財(cái)政擴(kuò)張(廣義財(cái)政赤字或達(dá)12萬(wàn)億)投向新型城鎮(zhèn)化(885991)、消費(fèi)(883434)及新興產(chǎn)業(yè);另一方面,經(jīng)濟(jì)基本面逐步企穩(wěn),房地產(chǎn)(881153)銷售降幅收窄疊加制造業(yè)升級(jí),驅(qū)動(dòng)滬深300(399300)盈利增速預(yù)期修復(fù)。在此背景下,投資者風(fēng)險(xiǎn)偏好顯著提升,股權(quán)風(fēng)險(xiǎn)溢價(jià)高于歷史均值1.2個(gè)標(biāo)準(zhǔn)差,居民超額儲(chǔ)蓄(約6萬(wàn)億)與險(xiǎn)資增配權(quán)益資產(chǎn)(年入市規(guī)模近7000億)共同形成增量資金池,為市場(chǎng)提供流動(dòng)性支撐。
當(dāng)前A股估值處于中長(zhǎng)期洼地,較全球新興市場(chǎng)存在顯著折價(jià)。在風(fēng)格快速輪動(dòng)與市場(chǎng)效率提升的背景下,傳統(tǒng)多因子模型的同質(zhì)化風(fēng)險(xiǎn)加劇(40%機(jī)構(gòu)策略相似),量化選股模型通過動(dòng)態(tài)因子加權(quán)成為破局關(guān)鍵。
傳統(tǒng)資產(chǎn)定價(jià)模型(如CAPM、APT、Fama-French三因子模型)通過線性回歸框架識(shí)別系統(tǒng)性風(fēng)險(xiǎn)因子(市場(chǎng)風(fēng)險(xiǎn)、規(guī)模、價(jià)值等),其核心貢獻(xiàn)在于將收益歸因于有限維度的經(jīng)濟(jì)邏輯變量(如企業(yè)基本面、宏觀風(fēng)險(xiǎn)溢價(jià))。然而,隨著市場(chǎng)結(jié)構(gòu)復(fù)雜化與另類數(shù)據(jù)激增,傳統(tǒng)模型面臨兩大瓶頸。一是非線性關(guān)系建模不足,股價(jià)驅(qū)動(dòng)因子間的交互效應(yīng)(如動(dòng)量與波動(dòng)率的協(xié)同作用)難以通過線性方程刻畫。二是高維特征處理低效,當(dāng)因子數(shù)量增至百維以上(如資金流、輿情、供應(yīng)鏈數(shù)據(jù)),傳統(tǒng)方法易陷入“維度災(zāi)難”。在此背景下,決策樹與神經(jīng)網(wǎng)絡(luò)(ResNet、LSTM、CNN)等機(jī)器學(xué)習(xí)算法憑借非線性函數(shù)擬合能力成為收益預(yù)測(cè)的新范式。尤其神經(jīng)網(wǎng)絡(luò)通過深層特征變換可挖掘因子間的隱性關(guān)聯(lián)(例如CNN捕捉量?jī)r(jià)時(shí)空模式、LSTM建模因子時(shí)變效應(yīng)),在預(yù)測(cè)精度上顯著超越線性模型。盡管神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)性能卓越,但其在金融場(chǎng)景的落地面臨兩大關(guān)鍵挑戰(zhàn):模型復(fù)雜性過高,深度網(wǎng)絡(luò)需超參數(shù)調(diào)優(yōu)、GPU算力支持及海量訓(xùn)練數(shù)據(jù),中小券商基礎(chǔ)設(shè)施難以承載(如ResNet訓(xùn)練單模型耗時(shí)超LightGBM的5倍);因子歸因能力弱,隱層特征變換導(dǎo)致經(jīng)濟(jì)邏輯模糊,無(wú)法清晰追溯收益來源(例如無(wú)法量化價(jià)值因子對(duì)組合收益的貢獻(xiàn)度),嚴(yán)重阻礙策略迭代與風(fēng)控審計(jì)。相比之下,LightGBM憑借梯度提升決策樹(GBDT)框架,在保持非線性建模能力的同時(shí)兼具解釋性與低復(fù)雜性。
LightGBM框架進(jìn)行橫截面收益率預(yù)測(cè),其核心是通過梯度提升決策樹(GBDT)融合高維因子(如量?jī)r(jià)、基本面、資金流等),以均方誤差(MSE)作為損失函數(shù)回歸預(yù)測(cè)個(gè)股絕對(duì)收益率。這一方法雖能捕捉因子非線性關(guān)系,卻存在本質(zhì)性缺陷:目標(biāo)函數(shù)與投資任務(wù)錯(cuò)位。MSE優(yōu)化的是收益率絕對(duì)值預(yù)測(cè)精度,而投資組合構(gòu)建實(shí)際依賴的是股票相對(duì)排序(如優(yōu)選TopK個(gè)股);其平等加權(quán)所有樣本誤差的特性導(dǎo)致對(duì)尾部噪聲敏感(如財(cái)報(bào)暴雷股),且忽略頭部股票排序準(zhǔn)確性的關(guān)鍵價(jià)值(NDCG@K指標(biāo)與MSE優(yōu)化方向脫節(jié)),最終使組合收益被非關(guān)鍵誤差干擾。
為克服上述缺陷,本文將排序?qū)W習(xí)(LambdaRank[8])損失函數(shù)被引入LightGBM框架,實(shí)現(xiàn)從“回歸預(yù)測(cè)”到“排序優(yōu)化”的范式升級(jí)。排序?qū)W習(xí)的創(chuàng)新一方面將梯度重構(gòu),繞過顯式損失函數(shù)定義,直接基于排序評(píng)價(jià)指標(biāo)(如NDCG)設(shè)計(jì)梯度;另一方面將股票樣本數(shù)據(jù)在訓(xùn)練時(shí)以分組形式指定每日橫截面股票池規(guī)模,確保同一交易日股票作為獨(dú)立查詢組參與排序?qū)W習(xí),從而直接優(yōu)化頭部股票的分層準(zhǔn)確性。
在中國(guó)A股市場(chǎng)的實(shí)證表明,對(duì)于LightGBM選股模型,排序?qū)W習(xí)策略在相同因子庫(kù)下相比MSE均值回歸策略夏普比率提升66%(1.86 vs 1.12),換手率降低46%,驗(yàn)證了排序?qū)W習(xí)對(duì)量化選股任務(wù)的目標(biāo)適配性。
2.相關(guān)工作
在不確定條件下資產(chǎn)未來風(fēng)險(xiǎn)與收益之間的權(quán)衡關(guān)系是資產(chǎn)定價(jià)(Asset Pricing)的核心問題。傳統(tǒng)資產(chǎn)定價(jià)模型主要有資本資產(chǎn)定價(jià)模型(CAPM)和套利定價(jià)理論(APT)。CAPM 是基于風(fēng)險(xiǎn)資產(chǎn)期望收益均衡基礎(chǔ)上的預(yù)測(cè)模型,它認(rèn)為資產(chǎn)的預(yù)期收益率等于無(wú)風(fēng)險(xiǎn)利率加上風(fēng)險(xiǎn)溢價(jià),而風(fēng)險(xiǎn)溢價(jià)取決于資產(chǎn)的系統(tǒng)性風(fēng)險(xiǎn)。APT認(rèn)為資產(chǎn)的預(yù)期收益率取決于多個(gè)因素,而不僅僅是市場(chǎng)組合的收益率。它通過構(gòu)建多因素模型來解釋資產(chǎn)的收益。如果資產(chǎn)的定價(jià)不合理,就會(huì)出現(xiàn)套利機(jī)會(huì),投資者會(huì)通過套利行為使資產(chǎn)價(jià)格回歸合理水平。Fama-French三因子模型認(rèn)為股票的收益率除了受市場(chǎng)風(fēng)險(xiǎn)因素影響外,還受到公司規(guī)模、賬面市值比等因素的影響。套利定價(jià)理論為三因子模型的發(fā)展提供了理論基礎(chǔ),F(xiàn)ama-French三因子模型是在套利定價(jià)理論基礎(chǔ)上的具體應(yīng)用和拓展。Fama-French多因子模型還存在盈利水平風(fēng)險(xiǎn)、投資水平風(fēng)險(xiǎn)等其他因素影響股票的收益率。隨著數(shù)據(jù)的豐富和計(jì)算能力的提升,大量的因子被挖掘出來,用于解釋資產(chǎn)價(jià)格或投資組合的表現(xiàn),就如同一個(gè)“動(dòng)物園” 里有各種各樣的因子——“Factor Zoo”。這些因子來源多樣、數(shù)量眾多且特性各異,主要分為市場(chǎng)因子、規(guī)模因子、價(jià)值因子、盈利因子、投資因子等。
金融數(shù)據(jù)和因子的幾何式增長(zhǎng)對(duì)傳統(tǒng)資產(chǎn)定價(jià)和組合管理模型的參數(shù)估計(jì)、有效性都充滿了挑戰(zhàn)。隨著深度學(xué)習(xí)的提出和硬件算力的提升,金融領(lǐng)域也正在迎接“大數(shù)據(jù)+深度模型”的時(shí)代。金融數(shù)據(jù)具有非線性、非平穩(wěn)性和高噪音性三大性質(zhì),這對(duì)于傳統(tǒng)統(tǒng)計(jì)學(xué)方法是困難的,但機(jī)器學(xué)習(xí)不需要復(fù)雜的數(shù)據(jù)預(yù)處理,能夠通過大量樣本的訓(xùn)練保證模型的泛化能力。其中集成學(xué)習(xí)算法將多個(gè)弱學(xué)習(xí)器通過各種投票機(jī)制構(gòu)建成一個(gè)強(qiáng)學(xué)習(xí)器的模型,在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域都有廣泛應(yīng)用。目前集成算法分為Bagging(袋裝法)和Boosting(提升法)兩類。Bagging以隨機(jī)森林為代表,通過對(duì)原始數(shù)據(jù)集進(jìn)行有放回的隨機(jī)抽樣,得到多個(gè)不同的子數(shù)據(jù)集,然后分別在這些子數(shù)據(jù)集上訓(xùn)練多個(gè)弱學(xué)習(xí)器(通常是決策樹),最后通過投票等方式將這些弱學(xué)習(xí)器的結(jié)果進(jìn)行組合。Boosting以AdaBoost(Adaptive(ADPT) Boosting)、 GBDT(Gradient Boosting Decision Tree)為代表,是一種串行的集成方法,即依次訓(xùn)練多個(gè)弱學(xué)習(xí)器,每個(gè)弱學(xué)習(xí)器都是基于上一個(gè)弱學(xué)習(xí)器的錯(cuò)誤進(jìn)行調(diào)整和改進(jìn)。通過不斷地調(diào)整樣本權(quán)重和學(xué)習(xí)器權(quán)重,使得后續(xù)的弱學(xué)習(xí)器更加關(guān)注那些被前一個(gè)弱學(xué)習(xí)器錯(cuò)誤分類的樣本,從而逐步提高整體模型的性能。微軟(MSFT)開發(fā)的LightGBM采用了一系列優(yōu)化技術(shù),在訓(xùn)練速度、內(nèi)存占用和準(zhǔn)確率等方面具有明顯優(yōu)勢(shì),廣泛應(yīng)用于信用風(fēng)險(xiǎn)評(píng)估、金融市場(chǎng)價(jià)格和趨勢(shì)預(yù)測(cè)等任務(wù)。
3.方法
根據(jù)決策樹輸出結(jié)果的不同,決策樹可以分為分類樹和回歸樹兩類。其核心邏輯是根據(jù)度量標(biāo)準(zhǔn),從樹根開始選擇最優(yōu)特征逐級(jí)分裂,遞推生成一顆完整的決策樹。業(yè)界大多使用信息增益(表示信息不確定性減少的程度,越大越好)、信息增益比(越大越好)、基尼系數(shù)(衡量集合的純度,越小越好)作為分裂標(biāo)準(zhǔn)。CART(Classification and Regression Tree)決策樹每次選擇基尼系數(shù)最小的屬性進(jìn)行迭代,它既可以解決分類問題又可以解決回歸問題。決策樹在建立樹時(shí)如果參數(shù)選擇不合理(即樹根或者枝干略有差池),樹就可能會(huì)徹底長(zhǎng)偏,產(chǎn)生過擬合的現(xiàn)象,導(dǎo)致泛化能力變?nèi)?,因此大多?huì)采用剪枝、交叉驗(yàn)證等手段。除此之外,為了有效減少單決策樹帶來的問題,與決策樹相關(guān)的組合(比如Bagging, Boosting等算法)也逐漸被引入進(jìn)來,這些算法的精髓都是通過生成N棵樹(N可能高達(dá)幾百)最終形成一棵最適合的大樹。如圖1所示,Bagging技術(shù)類似多數(shù)投票機(jī)制,對(duì)于不同的分類器可以通過并行訓(xùn)練而獲得,且每個(gè)分類器的權(quán)重相等;但Boosting則是在前面已訓(xùn)練獲得的分類器基礎(chǔ)上加以調(diào)整(更關(guān)心之前分類器分錯(cuò)的樣本)而獲得新的分類器,因此Boosting中的分類器權(quán)重并不相等,其權(quán)重值代表該分類器在上一輪迭代中的成功度??偟膩碚fBoosting主要關(guān)注降低偏差,能基于泛化性能相對(duì)弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成;Bagging主要關(guān)注降低方差,在不剪枝的決策樹、神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)器上效用更為明顯。GBDT(Gradient Boosting Decision Tree)是基于bagging的算法,通過構(gòu)造一組弱的分類回歸樹CART,并把多顆決策樹的結(jié)果累加起來作為最終的預(yù)測(cè)輸出。所有弱分類器的結(jié)果相加等于預(yù)測(cè)值。每次都以當(dāng)前預(yù)測(cè)為基準(zhǔn),下一個(gè)弱分類器去擬合誤差函數(shù)對(duì)預(yù)測(cè)值的殘差(預(yù)測(cè)值與真實(shí)值之間的誤差)。LightGBM是GBDT的算法實(shí)現(xiàn),引入了并行方案、基于梯度的單邊檢測(cè)、排他性特征捆綁等,提供一個(gè)快速高效、低內(nèi)存占用、高準(zhǔn)確度、支持并行和大規(guī)模數(shù)據(jù)處理的數(shù)據(jù)科學(xué)工具。在本研究中,將股票的多因子特征作為輸入,股票未來幾日的收益率作為標(biāo)簽,通過決策樹擬合股票未來N天的收益率變化趨勢(shì)。
圖1 集成算法Boosting和Bagging的區(qū)別
Point-wise的MSE,平等懲罰所有預(yù)測(cè)誤差,忽視投資組合構(gòu)建的排序本質(zhì)。Pair-wise的Lambdarank,直接優(yōu)化股票對(duì)的相對(duì)順序,來提升排序質(zhì)量,其計(jì)算流程基于RankNet的梯度改進(jìn),并引入位置感知機(jī)制。對(duì)于橫截面任意兩只股票組合,股票i和j的真實(shí)標(biāo)簽滿足收益率i大于收益率j時(shí),模型打分時(shí)需滿足股票i的得分高于j的情況。RankNet使用交叉熵?fù)p失建模股票對(duì)排序概率,而LambdaRank在RankNet基礎(chǔ)上引入排序評(píng)價(jià)指標(biāo)(如NDCG)的變化量作為梯度權(quán)重。在LightGBM的樹分裂增益時(shí),以梯度加權(quán)信息增益選擇分裂點(diǎn)。綜上,通過對(duì)NDCG的變化加權(quán),頭部排序錯(cuò)誤產(chǎn)生更大損失(如交換第1位和第10位的損失遠(yuǎn)高于交換第50位和第60位)。在LightGBM中直接優(yōu)化IR指標(biāo)(NDCG),避免MSE回歸的絕對(duì)誤差偏差。
4.實(shí)驗(yàn)
我們?cè)谥袊?guó)A股市場(chǎng)上評(píng)估驗(yàn)證了框架的有效性,選取了全市場(chǎng)市值排名在前90%的標(biāo)的進(jìn)行模型的訓(xùn)練。選取了年化收益率ARR、最大回撤MDD和年化夏普比率 ASR衡量不同風(fēng)險(xiǎn)偏好。ARR(Annualized Rate of Return)是一個(gè)持有周期(883436)的年化平均收益率,是持有期的平均收益率減去無(wú)風(fēng)險(xiǎn)收益率。AVol(Annualized Volatility)是年化平均波動(dòng)率,反映了策略的風(fēng)險(xiǎn)水平。MDD(Maximum DrawDown)是衡量投資策略在最糟糕情況下的損失。ASR(Annualized Sharpe Ratio)是年化夏普率,反映在年化波動(dòng)率下的風(fēng)險(xiǎn)調(diào)整收益。
為了驗(yàn)證排序?qū)W習(xí)是否能夠優(yōu)化已有因子組合的模型,我們對(duì)比了多因子等權(quán)組合、基于MSE均值回歸的LightGBM。
表1分別展示LightGBM和等權(quán)組合在全市場(chǎng)市值前90%股票池中根據(jù)多因子模型選取前100只股票條件下收益和風(fēng)險(xiǎn)的表現(xiàn)。
整體來看基于排序?qū)W習(xí)的LightGBM相比等權(quán)組合,在年化收益率、年化夏普率、最大回撤指標(biāo)上結(jié)果更好,在換手率指標(biāo)上結(jié)果稍遜。這表明機(jī)器學(xué)習(xí)算法可以改進(jìn)傳統(tǒng)的資產(chǎn)配置結(jié)果,實(shí)現(xiàn)在風(fēng)險(xiǎn)可控條件下較高的收益。在2022、2023年市場(chǎng)低迷的情況下,基于排序?qū)W習(xí)的LightGBM比基于MSE的LightGBM性能表現(xiàn)欠佳,這可能是因?yàn)槭袌?chǎng)橫盤震蕩風(fēng)格持續(xù)切換,多頭排序一直變化很難捕捉到規(guī)律。在2024年和2025年盡管市場(chǎng)波動(dòng)劇烈,但是風(fēng)格持續(xù)時(shí)間較長(zhǎng),基于排序?qū)W習(xí)的LightGBM能夠捕捉趨勢(shì),抓住賺錢效應(yīng)??偟膩砜?,基于排序?qū)W習(xí)的LightGBM相比等權(quán)組合模型,在最大回撤相差不大的情況下,夏普率有一定提升。
排序?qū)W習(xí)的損失函數(shù)在邏輯和結(jié)果上均具有一定優(yōu)勢(shì),在實(shí)際使用中若直接將其取代MSE,可能導(dǎo)致模型過分追求排序結(jié)果,而股票間收益率的大小關(guān)系差異會(huì)被忽略,因此后續(xù)我們將探討多任務(wù)學(xué)習(xí),將排序和回歸兩個(gè)目標(biāo)結(jié)合,使模型在兩個(gè)方向同時(shí)學(xué)習(xí),從而達(dá)到兩者兼顧的效果。
本文證實(shí)了橫截面收益預(yù)測(cè)策略因引入排序?qū)W習(xí)(LTR)技術(shù)顯著提升組合收益的穩(wěn)健性。然而市場(chǎng)風(fēng)格劇變(如2024年微盤股(883418)流動(dòng)性問題、小市值因子波動(dòng)率飆至4.8%)倒逼模型持續(xù)迭代,證券公司(399975)需建立動(dòng)態(tài)對(duì)抗機(jī)制,突破因子內(nèi)卷,將技術(shù)壁壘轉(zhuǎn)化為競(jìng)爭(zhēng)優(yōu)勢(shì)。未來突破在于聯(lián)邦學(xué)習(xí)框架下的行業(yè)協(xié)作——在數(shù)據(jù)隱私合規(guī)前提下共享因子有效性情報(bào),推動(dòng)量化投資從“零和博弈”轉(zhuǎn)向提升市場(chǎng)整體韌性的基礎(chǔ)設(shè)施。
