設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

芝大論文證明 GPT-4 選股準(zhǔn)確率高達(dá) 60%,人類股票分析師要下崗?AI 大牛質(zhì)疑數(shù)據(jù)污染

新智元 2024/5/27 13:02:51 責(zé)編:汪淼

【新智元導(dǎo)讀】GPT-4 在為人類選股時,表現(xiàn)竟然超越了大部分人類分析師,和針對金融訓(xùn)練的專業(yè)模型?在沒有任何上下文的情況下,它們直接就成功分析了財務(wù)報表,這一發(fā)現(xiàn)讓許多業(yè)內(nèi)大咖震驚了。然而好景不長,有 AI 大牛指出研究中的 bug:之所以會這樣,很可能是訓(xùn)練數(shù)據(jù)被污染了。

最近,各位業(yè)內(nèi)大咖都被芝大的一篇論文震驚了。

研究者發(fā)現(xiàn),由 GPT-4 幫忙選擇的股票,直接擊敗了人類!同時也 pk 掉了許多其他針對金融訓(xùn)練的機器學(xué)習(xí)模型。

最讓他們震驚的是,LLM 可以在沒有任何敘述上下文的情況下,就成功分析財務(wù)報表中的數(shù)字!

論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具體來說,在預(yù)測收益的變化上,LLM 比經(jīng)驗豐富的金融分析師都更出色。尤其是在選股時,人類分析師會面臨一些難以應(yīng)對的場景,導(dǎo)致預(yù)測結(jié)果存在偏見、效率低下,這時 LLM 就表現(xiàn)出了巨大的優(yōu)勢。

并且,LLM 做出的預(yù)測,不僅僅是回憶訓(xùn)練數(shù)據(jù),比如 GPT-4 提供的有洞察力的分析,甚至能揭示一家公司未來潛在的表現(xiàn)。

GPT-4 的表現(xiàn)一騎絕塵,直接比其他模型實現(xiàn)了更高的夏普比率(Sharpe ratio)和阿爾法(alpha)。

沃頓商學(xué)院教授 Ethan Mollick 盛贊:這是一篇眾人翹首以盼的論文。

也有網(wǎng)友感慨道:以后在股市中操盤的,是人還是 AI 都不好說了……

然而,就在大家激動之時,有細(xì)心的研究人員給這項研究潑了冷水:之所以能取得這個結(jié)果,很可能是由于訓(xùn)練數(shù)據(jù)的污染造成的。

AI 大牛田淵棟也表示,GPT-4 的優(yōu)異表現(xiàn),不排除是訓(xùn)練數(shù)據(jù)集中包括了未來的股票價格,因此 GPT-4 直接開了掛,據(jù)此對 2021 年起的股票樣本進(jìn)行了選擇。

至于測試 GPT-4 是否開了掛,理論上并不復(fù)雜:只要獲取股票的歷史記錄,將其重命名為某個新代碼,將其輸入來測試就可以了。

研究內(nèi)容

怎樣衡量 LLM 在未來決策中的作用?在這項研究中,研究者衡量的標(biāo)準(zhǔn),就是讓 LLM 進(jìn)行財務(wù)報表分析(FSA)。

之所以進(jìn)行 FSA,主要是為了了解公司的財務(wù)健康狀況,并確定其業(yè)績是否可持續(xù)。

FSA 并不簡單,它是一個定量任務(wù),需要大量分析趨勢和比率,還涉及批判性思維、推理能力和復(fù)雜判斷。通常,這個任務(wù)是由金融分析師和投資專業(yè)人士來完成的。

在研究中,研究者會將兩份標(biāo)準(zhǔn)的財務(wù)報表 —— 資產(chǎn)負(fù)債表和損益表扔給 GPT-4 Turbo,它的任務(wù)是:分析公司接下來的收益是會增長還是下降。

注意,這項研究中有一個關(guān)鍵的設(shè)計,就是絕不向 LLM 提供任何文本信息,LLM 能參考的,只有純粹的報表。

研究者預(yù)測,LLM 的表現(xiàn),大概率會比專業(yè)的人類分析師差。

原因在于,分析財務(wù)報表這項任務(wù),非常復(fù)雜,涉及許多模糊性的東西,需要很大常識、直覺和人類思維的靈活性。

而且,LLM 目前的推理和判斷能力還很不足,并且也缺乏對于行業(yè)和宏觀經(jīng)濟的理解。

另外,研究者還預(yù)測 LLM 的表現(xiàn)也會弱于專用的機器學(xué)習(xí)應(yīng)用,比如為收益預(yù)測的人工神經(jīng)網(wǎng)絡(luò)(ANN)。

因為,ANN 允許模型學(xué)習(xí)深層次的交互,這些交互中包含了重要線索,通用模型是很難獲取這些線索的。除非,通用模型能基于不完整的信息,或從未見過的情景,進(jìn)行直覺推理、形成假設(shè)。

實驗結(jié)果卻令他們大吃一驚:LLM 竟然 pk 掉了許多人類分析師和專用的神經(jīng)網(wǎng)絡(luò),表現(xiàn)出了更優(yōu)異的成績!

實驗步驟

評測 LLM 的具體表現(xiàn)如何,需要從以下兩個步驟展開。

首先,研究人員對公司的財務(wù)報表進(jìn)行匿名化和標(biāo)準(zhǔn)化處理,防止 LLM 記住公司的潛在可能。

特別是,他們從資產(chǎn)負(fù)債表和損益表中,省去了公司的名稱,并用標(biāo)簽(如 t 和 t-1)替換年份。

此外,研究者還按照 Compustat 的平衡模型,標(biāo)準(zhǔn)化資產(chǎn)負(fù)債表和損益表的格式。

這種方法,可以確保財務(wù)報表的格式,在所有公司年度統(tǒng)計中都是相同的,因此 LLM 也不知道其分析對應(yīng)的是哪家公司或哪個時間段。

在第二階段中,研究人員設(shè)計了一個指令,指導(dǎo) LLM 進(jìn)行財務(wù)報表分析,并確定未來收益方向。

除了簡單的指令外,他們還開發(fā)了一個 CoT 指令,實際上是「教」LLM 以人類金融分析師的思維過程進(jìn)行分析。

具體來說,金融分析師在分析中會識別財務(wù)報表中顯著的趨勢,計算關(guān)鍵財務(wù)比率(如經(jīng)營效率、流動性和杠桿比率),綜合這些信息,并形成對未來收益的預(yù)期。

研究人員創(chuàng)建的 CoT 指令,便是通過一系列步驟,來實現(xiàn)這個思維過程。

在數(shù)據(jù)集選用上,研究人員使用 Compustat 數(shù)據(jù)庫來測試模型的表現(xiàn),并在必要時與 IBES 數(shù)據(jù)庫交叉使用。

樣本涵蓋了從 1968-2021 年之間,15401 家公司的 150678 個公司的年度數(shù)據(jù)。

分析師的樣本涵蓋了 1983-2021 年期間,包含 3152 家公司的 39533 個觀察數(shù)據(jù)。

LLM 為何如此成功

對于這個結(jié)果,研究者提出了兩種假設(shè)。

第一種假設(shè)是,GPT 的表現(xiàn)完全是由近乎完美的記憶驅(qū)動的。

GPT 很可能是從數(shù)據(jù)中推斷出了公司的身份和年份,然后將這些信息與新聞中學(xué)到的關(guān)于該公司的情感相匹配。

為此,研究者試圖排除這種可能。并且,也使用了 GPT-4 訓(xùn)練期以外的全新數(shù)據(jù),復(fù)制了結(jié)果。

第二種假設(shè)是,GPT 之所以能推斷出未來收益的方向,是因為生成了有用的見解模型。

比如,模型經(jīng)常會計算金融分析師計算的標(biāo)注比率,然后根據(jù) CoT 提示生成分析這些比率的敘述。

為此,研究者將模型為給定公司年度生成的所有敘述匯總,并使用 BERT 將它們編碼成 768 維向量(嵌入),然后將這些向量輸入到 ANN 中,并訓(xùn)練它預(yù)測未來收益的方向。

結(jié)果,基于 GPT 敘述見解訓(xùn)練的 ANN 達(dá)到了 59% 的準(zhǔn)確率,這幾乎與 GPT 的預(yù)測準(zhǔn)確率(60%)一樣高

這一結(jié)果直接證明,模型生成的敘述見解對未來表現(xiàn)具有信息性。

另外可以觀察到,GPT 的預(yù)測與基于 GPT 敘述的 ANN 預(yù)測之間,有 94% 的相關(guān)性,這就表明,這些敘述編碼的信息是 GPT 預(yù)測的基礎(chǔ)。而在解釋未來收益方向上,與比率分析相關(guān)的敘述最為重要。

總之,模型之所以表現(xiàn)優(yōu)越,原因就是基于 CoT 推理生成的敘述。

實驗結(jié)果

最新研究中的實驗評估結(jié)果,可以總結(jié)為以下三大亮點。

GPT 勝過人類金融分析師

為了評估分析師的預(yù)測準(zhǔn)確性,研究者計算了「共識預(yù)測」(即財務(wù)報表發(fā)布后一個月內(nèi)各個分析師預(yù)測的中位數(shù)),并將其作為下一年收益的預(yù)期。

這確保了分析師預(yù)測和模型預(yù)測結(jié)果的可比性。

此外,作者還使用了使用未來三個月和六個月的「共識預(yù)測」作為可替代的預(yù)期基準(zhǔn)。

這些基準(zhǔn)對 LLM 不利,因為它們整合了一年中所獲得的信息。不過,考慮到分析師可能在將新信息納入預(yù)測時較為遲緩,研究者選擇報告這些基準(zhǔn)以供比較。

研究人員首先對 GPT 在預(yù)測未來「收益方向」方面的表現(xiàn)進(jìn)行了分析,并將其與證券分析師的表現(xiàn)進(jìn)行了比較。

他們注意到預(yù)測每股收益(EPS)變化是一項高度復(fù)雜的任務(wù),因為 EPS 時間序列近似于「Random Walk」(隨機游走)并且包含大量不可預(yù)測的成分。

隨機游走反映了,僅根據(jù)當(dāng)前收益與之前收益相比的變化的預(yù)測。

下圖展示的是 GPT 和人類金融分析師的預(yù)測性能對比結(jié)果。

結(jié)果顯示,第一個月分析師的預(yù)測,在預(yù)測未來收益方向方面的準(zhǔn)確率為 53%,這超過了簡單模型(將前一年的變化外推)的 49% 準(zhǔn)確率。

而分析師三個月和六個月后的預(yù)測準(zhǔn)確率,分別為 56% 和 57%,這是合理的,因其包含了更及時的信息。

基于「簡單」非 CoT 提示的 GPT 預(yù)測表現(xiàn)為 52%,低于人類分析師基準(zhǔn),這與研究者預(yù)期一致。

然而,當(dāng)使用 CoT 模擬人類推理時,他們發(fā)現(xiàn) GPT 的準(zhǔn)確率達(dá)到了 60%,顯著高于分析師的表現(xiàn)。

如果再去核查 F1-score(F1 評分),這是一種評估模型預(yù)測能力的替代指標(biāo)(基于其精確度和召回率的組合),也會得出類似的結(jié)論。

這表明,在分析財務(wù)報表以確定公司發(fā)展 方向方面,GPT 明顯擊敗了中位數(shù)金融分析師的表現(xiàn)。

坦白講,人類分析師可能依賴于模型無法獲得的軟信息或更廣泛的背景,從而增加了價值。

確實,研究人員還發(fā)現(xiàn)分析師的預(yù)測包含了 GPT 未捕捉到的,關(guān)于未來表現(xiàn)的有用見解。

此外,研究顯示,當(dāng)人類難以做出未來預(yù)測時,GPT 的見解更有價值。

同樣,在人類預(yù)測容易出現(xiàn)偏見或效率低(即未合理納入信息)的情況下,GPT 的預(yù)測在預(yù)測未來收益方向方面更有用。

GPT 與專用神經(jīng)網(wǎng)絡(luò)不相上下

研究人員還比較了 GPT 和各種 ML 模型的預(yù)測精度。

他們選用了三種預(yù)測模型。

  • 第一個模型「Stepwise Logistic」(逐步回歸),遵循 Ou and Penman 框架,使用了 59 個財務(wù)指標(biāo)預(yù)測變量。

  • 第二個模型是,使用相同 59 個預(yù)測變量的 ANN 但也利用了它們之間的非線性和交互。

  • 第三,為了確保 GPT 和 ANN 之間的一致性,研究人員還使用了,基于提供給 GPT 的相同信息集(損益表和資產(chǎn)負(fù)債表)訓(xùn)練的 ANN 模型。

重要的是,研究者基于每五年的歷史數(shù)據(jù)使用 Compustat 的觀察數(shù)據(jù)來訓(xùn)練這些模型。所有預(yù)測都是樣本外的(out of sample)。

使用整個 Compustat 樣本,研究發(fā)現(xiàn)「逐步回歸」的準(zhǔn)確率(F1 評分)為 52.94%(57.23%),這與人類分析師的表現(xiàn)相當(dāng),并且與之前的研究一致。

相比之下,使用相同數(shù)據(jù)訓(xùn)練的 ANN 達(dá)到了更高的準(zhǔn)確率 60.45%(F1 評分 61.62%),這處于最先進(jìn)的收益預(yù)測模型的范圍。

當(dāng)使用 GPT(with CoT)預(yù)測時,發(fā)現(xiàn)模型在整個樣本上的準(zhǔn)確率為 60.31%,這與 ANN 的準(zhǔn)確率非常接近。

事實上,GPT 的 F1 評分顯著高于 ANN(63.45% vs. 61.6%)。

此外,當(dāng)研究人員僅使用兩份財務(wù)報表的數(shù)據(jù)(輸入到 GPT 中)訓(xùn)練 ANN 時,發(fā)現(xiàn) ANN 的預(yù)測能力略低,準(zhǔn)確率(F1 評分)為 59.02%(60.66%)。

總體而言,這些結(jié)果表明 GPT 的準(zhǔn)確率與最先進(jìn)的專用機器學(xué)習(xí)模型的準(zhǔn)確率相當(dāng)(甚至略高)。

ANN 和 GPT 預(yù)測互補

研究人員進(jìn)一步觀察到,ANN 和 GPT 的預(yù)測具有互補性,因為它們都包含有用的增量信息。

并且有跡象表明,當(dāng) ANN 表現(xiàn)不佳時,GPT 往往表現(xiàn)良好。

特別是,ANN 基于其在過去數(shù)據(jù)中看到的訓(xùn)練示例來預(yù)測收益。并且,鑒于許多示例非常復(fù)雜且高度多維,其學(xué)習(xí)能力可能受到限制。

相比之下,GPT 在預(yù)測小型或虧損公司的盈利時,犯的錯誤相對較少,可能得益于其類似人類的推理和廣泛的知識。

除此以外,研究者還進(jìn)行了幾項額外的實驗,基于 GPT 對其答案的置信度對樣本進(jìn)行分區(qū),并使用了不同的 LLM 家族。

當(dāng) GPT 以更高的置信度回答時,預(yù)測往往比置信度較低的預(yù)測更準(zhǔn)確。

與此同時,研究證明了這一結(jié)果可以推廣到其他大模型上。特別是,谷歌最近發(fā)布的 Gemini Pro,其準(zhǔn)確率與 GPT-4 不相上下。

預(yù)測來源:增長和營業(yè)利潤率

下圖顯示了,GPT 響應(yīng)中,雙詞(bigram)和單詞(monogram)的頻率統(tǒng)計。

這里,雙詞指的是由兩個連續(xù)的單詞組成,在文本中一起使用;單詞指的是一個單詞。

圖左展現(xiàn)的是「雙詞」的結(jié)果,GPT 關(guān)于財務(wù)比率分析的答案中發(fā)現(xiàn)的十個最常見的「雙詞」。

圖右列出的是,GPT 對二元盈利預(yù)測(binary earnings predictions)中,出現(xiàn)頻率最高的十個單詞。

之所以做這項分析,是為了確定 GPT 在不同財務(wù)分析環(huán)境中,使用最常見的術(shù)語和短語。

有趣的是,「營業(yè)利潤率」(Operating Margin)和「增長」(Growth)這兩個詞的預(yù)測力最高。

看來,GPT 似乎已經(jīng)內(nèi)化了「40 法則」。

總之,所有結(jié)果表明,AI 加速發(fā)展,金融分析師的角色將會改變。

不可否認(rèn),人類專業(yè)知識和判斷力不太可能在短期內(nèi)被完全取代。

但像 GPT-4 這樣強大的 AI 工具可能會極大地增強和簡化分析師的工作,甚至可能在未來幾年里,重塑財務(wù)報表分析這一領(lǐng)域。

參考資料:

  • https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with

  • https://x.com/tydsh/status/1794137012532081112

  • https://x.com/emollick/status/1794056462349861273

  • https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:大數(shù)據(jù)股票分析師,股票,GPT

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知