上市公司的 CEO 一言一行都得謹(jǐn)慎,不然股價(jià)分分鐘跌給你看。
回想這輪缺芯潮剛剛開始的時(shí)候,IT 行業(yè)高管們還在發(fā)言中回避或淡化供應(yīng)鏈問題。
幾個(gè)月后,大眾、福特這些老牌車企也遭波及,紛紛出聲警告“我撐不住啦,我要減產(chǎn)”。一輪股市動(dòng)蕩隨之而來。
不過卻有那么幾家投資機(jī)構(gòu)一點(diǎn)也不慌,因?yàn)樗麄冊(cè)缇筒蹲降搅?CEO 們信誓旦旦言論背后的遲疑。
他們用 AI 算法對(duì)比 CEO 發(fā)言稿中選擇的字詞和說話時(shí)的語氣,分析出了高度不一致性。使用算法的基金經(jīng)理表示 AI 技術(shù)能幫他們?cè)诟偁幹腥〉脙?yōu)勢。
畢竟頂級(jí)投資機(jī)構(gòu)都把財(cái)務(wù)報(bào)表分析的透透的了,很難從中榨取出更多價(jià)值。
此外,算法還產(chǎn)生了一個(gè)有趣的副作用。
因?yàn)榧磁d發(fā)言太容易暴露心理狀態(tài),逼得越來越多的 CEO 提前寫好照稿念了。
誰在用?
走在前面的有英國曼氏集團(tuán)旗下的基金 MAN AHL。
從 1983 年開始,這只基金就靠一個(gè)叫 AHL Diversified 的算法策略自動(dòng)跟蹤市場變化,到現(xiàn)在已經(jīng)成了“量化投資界的航母”。
隨著機(jī)器學(xué)習(xí)方法的發(fā)展,MAN AHL 也不斷把新技術(shù)應(yīng)用到投資策略中。
對(duì)于 CEO 的發(fā)言,他們的算法關(guān)注語調(diào)、節(jié)奏和重音,再結(jié)合 NLP 技術(shù)與文字轉(zhuǎn)錄版本作對(duì)比,找出口頭和字面表述不一致的部分。
具體算法細(xì)節(jié)雖然不公開,不過也可以從 MAN AHL 的機(jī)器學(xué)習(xí)主管 Slavi Marinov 偶爾發(fā)表的論文中略作了解。
在證券市場使用 NLP 技術(shù)的還有日本野村證券。
他們統(tǒng)計(jì)了 2014 年以來公司高管在電話會(huì)議上語言的復(fù)雜程度和股價(jià)的關(guān)系,結(jié)果是使用簡單措辭的公司股價(jià)要比復(fù)雜措辭的高出 6%。
美國銀行 (Bank of America)也利用電話會(huì)議中出現(xiàn)的詞匯來預(yù)測公司債券違約率。
他們的模型驗(yàn)證了削減成本 (Cost Cutting)、燒錢 (Cash Burn)這樣的詞與公司未來違約行為高度相關(guān)。
這樣的 AI 系統(tǒng),開發(fā)和運(yùn)行成本高達(dá)數(shù)百萬美元,一般小公司還真用不起。
大的投資機(jī)構(gòu)到底能不能用這個(gè)賺到錢?他們以商業(yè)敏感性為由都沒有透露。
對(duì)于小的投資機(jī)構(gòu),市場上也有一批技術(shù)提供商可以出售分析服務(wù),也就是此前火過一陣的概念 FinTech(金融科技)。
用的什么模型?
金融 NLP 最大的問題就是數(shù)據(jù)量不夠,把能找到的新聞和電話會(huì)議記錄全用上也不夠訓(xùn)練出效果好的語言模型。
不過得益于預(yù)訓(xùn)練技術(shù)的發(fā)展,先用大量通用領(lǐng)域文本訓(xùn)練,再用少量金融新聞和經(jīng)過標(biāo)注的電話會(huì)議文稿微調(diào)取得了效果。
很多金融語言模型都是基于 BERT,像倫敦證券交易所推出了使用路透社新聞?dòng)?xùn)練的 BERT-RNA 和使用 39 萬份電話會(huì)議記錄訓(xùn)練的 BERT-TRAN。
ICRL 2020 也收錄了一篇金融語言模型論文 FineBERT。
一家投資機(jī)構(gòu) Sparkline Capital 透露了很多他們的 BERT 模型訓(xùn)練細(xì)節(jié)。
預(yù)訓(xùn)練分為用通用文本、未標(biāo)注的電話會(huì)議記錄、帶情緒標(biāo)注的 IMDb 電影評(píng)論三步,最后再用少量帶情緒標(biāo)注的電話會(huì)議記錄微調(diào)。
最后,Sparkline Capital 還解釋了為什么現(xiàn)階段不能直接用深度學(xué)習(xí)來預(yù)測股價(jià)。
因?yàn)橄啾?CV 和 NLP 任務(wù)的數(shù)據(jù)來說,金融市場上參與者眾多、交易行為產(chǎn)生的數(shù)據(jù)信噪比太低。
噪音稀釋了數(shù)據(jù)中的有效信息,AI 模型會(huì)更容易被隨機(jī)性騙到。
按他們的說法,一張貓照片包含的信息量比 1000 個(gè)企業(yè)價(jià)值倍數(shù)(EV/EBITDA)數(shù)據(jù)還多。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。