2016 年 ,“阿爾法狗(AlphaGo)”與李世石的圍棋對(duì)決,讓人工智能和深度學(xué)習(xí)進(jìn)入了大眾的視野。在那場(chǎng)人機(jī)大戰(zhàn)中,阿爾法狗以總分 4 比 1 獲勝。不僅圍棋,深度學(xué)習(xí)近些年迅猛發(fā)展,在語言、醫(yī)療等多種領(lǐng)域展現(xiàn)出了強(qiáng)大的能力。然而這一切是有代價(jià)的,為了降低錯(cuò)誤率,深度學(xué)習(xí)在完成任務(wù)時(shí)需要越來越大的計(jì)算量,由此產(chǎn)生的經(jīng)濟(jì)成本、耗費(fèi)的電量、對(duì)環(huán)境的污染,將超出人類社會(huì)的承受能力。人工智能普及的那一天,或許也將是人類能源被計(jì)算機(jī)消耗殆盡的那一天?
當(dāng)下風(fēng)頭正勁的深度學(xué)習(xí)領(lǐng)域,起源于真空管計(jì)算機(jī)的時(shí)代。1958 年,康奈爾大學(xué)的弗蘭克?羅森布拉特(Frank Rosenblatt) 受大腦神經(jīng)元的啟發(fā),設(shè)計(jì)了第一個(gè)人工神經(jīng)網(wǎng)絡(luò),之后被命名為“深度學(xué)習(xí)”。羅森布拉特知道,這項(xiàng)技術(shù)超越了當(dāng)時(shí)的計(jì)算能力,他惋惜地表示:“隨著神經(jīng)網(wǎng)絡(luò)連接節(jié)點(diǎn)的增加…… 傳統(tǒng)的數(shù)字計(jì)算機(jī)很快就會(huì)無法承擔(dān)計(jì)算量的負(fù)荷?!?/p>
幸運(yùn)的是,計(jì)算機(jī)硬件在幾十年間快速升級(jí),使計(jì)算速度提高了大約 1000 萬倍。因此,21 世紀(jì)的研究人員得以實(shí)現(xiàn)具有更多連接的神經(jīng)網(wǎng)絡(luò),用來模擬更復(fù)雜的現(xiàn)象。如今深度學(xué)習(xí)已經(jīng)廣泛普及,被應(yīng)用于下圍棋、翻譯、預(yù)測(cè)蛋白質(zhì)折疊、分析醫(yī)學(xué)影像等多種領(lǐng)域。
深度學(xué)習(xí)的崛起勢(shì)如破竹,但它的未來很可能是坎坷的。羅森布拉特所擔(dān)憂的計(jì)算量的限制,仍然是籠罩在深度學(xué)習(xí)領(lǐng)域之上的一片陰云。如今,深度學(xué)習(xí)領(lǐng)域的研究人員正在逼近計(jì)算工具的極限。
深度學(xué)習(xí)的工作原理
深度學(xué)習(xí)是人工智能領(lǐng)域長期發(fā)展的成果。早期的人工智能系統(tǒng)基于邏輯和人類專家給定的規(guī)則,之后漸漸引入了可以通過學(xué)習(xí)來調(diào)節(jié)的參數(shù)。而今,神經(jīng)網(wǎng)絡(luò)可以通過學(xué)習(xí),構(gòu)建可塑性很強(qiáng)的計(jì)算機(jī)模型。神經(jīng)網(wǎng)絡(luò)的輸出不再是單一公式的結(jié)果,而是采用了極其復(fù)雜的運(yùn)算。足夠大的神經(jīng)網(wǎng)絡(luò)模型可以適應(yīng)任何類型的數(shù)據(jù)。
為了理解“專家系統(tǒng)(expert-system approach)”和“靈活系統(tǒng)(flexible-system approach)”的區(qū)別,我們考慮這樣一個(gè)場(chǎng)景:通過 X 光片判斷病人是否患有癌癥。我們假設(shè) X 光片中有 100 個(gè)特征(變量),但我們不知道哪些特征是重要的。
專家系統(tǒng)解決問題的方法,是讓放射學(xué)和腫瘤學(xué)領(lǐng)域的專家指定重要的變量,并允許系統(tǒng)只檢查這些變量。這一方法需要的計(jì)算量小,因此曾被廣泛采用。但如果專家沒能指出關(guān)鍵的變量,系統(tǒng)的學(xué)習(xí)能力就不如人意。
而靈活系統(tǒng)解決問題的方法,是檢查盡可能多的變量,并由系統(tǒng)自行判斷哪些重要。這需要更多的數(shù)據(jù)和更高的計(jì)算成本,相比專家系統(tǒng)效率更低。但是,只要有足夠的數(shù)據(jù)和計(jì)算量,靈活系統(tǒng)可以比專家系統(tǒng)表現(xiàn)更優(yōu)。
深度學(xué)習(xí)模型是過參數(shù)化的(overparameterized),即參數(shù)比可供訓(xùn)練的數(shù)據(jù)點(diǎn)多。比如圖像識(shí)別系統(tǒng) Noisy Student 的神經(jīng)網(wǎng)絡(luò)擁有 4.8 億個(gè)參數(shù),但它在訓(xùn)練時(shí)只使用了 120 萬個(gè)標(biāo)記的圖像。過參數(shù)化通常會(huì)導(dǎo)致過擬合(overfitting),也就是模型與訓(xùn)練的數(shù)據(jù)集擬合度過高,以至于沒有把握一般趨勢(shì),卻學(xué)習(xí)了訓(xùn)練集的特殊性。深度學(xué)習(xí)通過隨機(jī)初始化參數(shù)、 “隨機(jī)梯度下降(stochastic gradient descent)” 等方法,反復(fù)調(diào)整參數(shù)集,以避免過擬合的問題。
深度學(xué)習(xí)已經(jīng)在機(jī)器翻譯領(lǐng)域大顯身手。早期,翻譯軟件根據(jù)語法專家制定的規(guī)則進(jìn)行翻譯。在翻譯烏爾都語、阿拉伯語、馬來語等語言時(shí),基于規(guī)則的方法起先優(yōu)于基于統(tǒng)計(jì)學(xué)的深度學(xué)習(xí)方法。但是隨著文本數(shù)據(jù)的增加,深度學(xué)習(xí)全面超越了其他方法。事實(shí)證明,深度學(xué)習(xí)在幾乎所有應(yīng)用領(lǐng)域都具有優(yōu)越性。
巨大的計(jì)算成本
一個(gè)適用于所有統(tǒng)計(jì)學(xué)模型的規(guī)則是:要想使性能提高 k 倍,至少需要 k2 倍的數(shù)據(jù)來訓(xùn)練模型。又因?yàn)樯疃葘W(xué)習(xí)模型的過參數(shù)化,使性能提高 k 倍將需要至少 k4 倍的計(jì)算量。指數(shù)中的“4”意味著,增加 10 000 倍計(jì)算量最多能帶來 10 倍的改進(jìn)。
顯然,為了提高深度學(xué)習(xí)模型的性能,科學(xué)家需要構(gòu)建更大的模型,使用更多的數(shù)據(jù)訓(xùn)練。但是計(jì)算成本會(huì)變得多昂貴呢?是否會(huì)高到我們無法負(fù)擔(dān),并因此阻礙該領(lǐng)域的發(fā)展?
為了探究這一問題,麻省理工學(xué)院的科學(xué)家收集了 1000 余篇深度學(xué)習(xí)研究論文的數(shù)據(jù),涉及圖像分類、目標(biāo)檢測(cè)、問答系統(tǒng)、命名實(shí)體識(shí)別和機(jī)器翻譯等領(lǐng)域。他們的研究警告,深度學(xué)習(xí)正面臨嚴(yán)峻的挑戰(zhàn)?!叭绻荒茉诓辉黾佑?jì)算負(fù)擔(dān)的前提下提高性能,計(jì)算量的限制就會(huì)使深度學(xué)習(xí)領(lǐng)域停滯不前。”
以圖像分類為例。減少圖像分類錯(cuò)誤伴隨著巨大的計(jì)算負(fù)擔(dān)。例如,2012 年 AlexNet 模型首次展示了在圖形處理器(GPU)上訓(xùn)練深度學(xué)習(xí)系統(tǒng)的能力,該模型使用兩個(gè) GPU 進(jìn)行了 5 ~ 6 天的訓(xùn)練。到 2018 年,另一個(gè)模型 NASNet-A 的錯(cuò)誤率降低到了 AlexNet 的一半,但它使用的計(jì)算量是 AlexNet 的 1000 多倍。
芯片性能的提升是否跟上了深度學(xué)習(xí)的發(fā)展?并沒有。在 NASNet-A 增加的 1000 多倍的計(jì)算量中,只有 6 倍的提升來自于更好的硬件,其余都是通過使用更多的處理器或運(yùn)行更長時(shí)間達(dá)到的,伴隨著更高的成本。
理論告訴我們,提高 k 倍的性能需要增加 k4 倍的計(jì)算量,但在實(shí)踐中,增加的計(jì)算量至少是 k9 倍。這意味著,要想將錯(cuò)誤率減半,需要 500 倍以上的計(jì)算資源,成本高昂。不過,實(shí)際情況與理論預(yù)測(cè)的差距,也意味著可能存在改進(jìn)算法的空間,有機(jī)會(huì)提高深度學(xué)習(xí)的效率。
根據(jù)研究人員估計(jì)的圖像識(shí)別領(lǐng)域“計(jì)算成本 — 性能”曲線,將錯(cuò)誤率降到 5%,需要進(jìn)行 1028 次浮點(diǎn)運(yùn)算。另一項(xiàng)來自馬薩諸塞大學(xué)阿默斯特分校的研究顯示了計(jì)算負(fù)擔(dān)隱含的巨大經(jīng)濟(jì)和環(huán)境成本:訓(xùn)練一個(gè)錯(cuò)誤率小于 5% 的圖像識(shí)別模型,將花費(fèi) 1000 億美元,其消耗的電能產(chǎn)生碳排放與紐約市一個(gè)月的碳排放量相當(dāng)。而想要訓(xùn)練錯(cuò)誤率小于 1% 的圖像識(shí)別模型,成本就更是天價(jià)。
計(jì)算成本的重負(fù)在深度學(xué)習(xí)的前沿已經(jīng)變得顯而易見。機(jī)器學(xué)習(xí)智庫 OpenAI 斥資 400 多萬美元,設(shè)計(jì)并訓(xùn)練了深度學(xué)習(xí)語言系統(tǒng) GPT-3。盡管研究人員在操作中犯了一個(gè)錯(cuò)誤,但他們并沒有修復(fù)它,僅僅在論文附錄中簡要解釋道:“由于高昂的訓(xùn)練的成本,對(duì)模型重新訓(xùn)練是不現(xiàn)實(shí)的。”
企業(yè)也開始回避深度學(xué)習(xí)的計(jì)算成本。歐洲的一家大型連鎖超市最近放棄了一項(xiàng)基于深度學(xué)習(xí)預(yù)測(cè)哪些產(chǎn)品將被購買的系統(tǒng)。該公司的高管判斷,訓(xùn)練和運(yùn)行該系統(tǒng)的成本過高。
深度學(xué)習(xí)路在何方
面對(duì)不斷上升的經(jīng)濟(jì)和環(huán)境成本,深度學(xué)習(xí)領(lǐng)域迫切地需要在計(jì)算量可控的前提下,提高性能的方法。研究人員為此進(jìn)行了大量研究。
一種策略是,使用為深度學(xué)習(xí)專門設(shè)計(jì)的處理器。在過去十年中,CPU 讓位給了 GPU、現(xiàn)場(chǎng)可編程門陣列(field-programmable gate arrays)和應(yīng)用于特定程序的集成電路(application-specific ICs)。這些方法提高了專業(yè)化的效率,但犧牲了通用性,面臨收益遞減。長遠(yuǎn)看來,我們可能需要全新的硬件框架。
另一種減少計(jì)算負(fù)擔(dān)的策略是,使用更小的神經(jīng)網(wǎng)絡(luò)。這種策略降低了每次的使用成本,但通常會(huì)增加訓(xùn)練成本。二者如何權(quán)衡取決于具體情況。比如廣泛應(yīng)用的模型應(yīng)當(dāng)優(yōu)先考慮巨大的使用成本,而需要不斷訓(xùn)練的模型應(yīng)當(dāng)優(yōu)先考慮訓(xùn)練成本。
元學(xué)習(xí)(meta-learning)有望降低深度學(xué)習(xí)訓(xùn)練成本。其理念是,讓一個(gè)系統(tǒng)的學(xué)習(xí)成果應(yīng)用于多種領(lǐng)域。例如,與其分別建立識(shí)別狗、貓和汽車的系統(tǒng),不如訓(xùn)練一個(gè)識(shí)別系統(tǒng)并多次使用。但是研究發(fā)現(xiàn),一旦原始數(shù)據(jù)與實(shí)際應(yīng)用場(chǎng)景有微小的差異,元學(xué)習(xí)系統(tǒng)的性能就會(huì)嚴(yán)重降低。因此,全面的元學(xué)習(xí)系統(tǒng)可能需要巨大的數(shù)據(jù)量支撐。
一些尚未發(fā)現(xiàn)或被低估的機(jī)器學(xué)習(xí)類型也可能降低計(jì)算量。比如基于專家見解的機(jī)器學(xué)習(xí)系統(tǒng)更為高效,但如果專家不能辨別所有的影響因素,這樣的系統(tǒng)就無法與深度學(xué)習(xí)系統(tǒng)相媲美。仍在發(fā)展的神經(jīng)符號(hào)(Neuro-symbolic methods)等技術(shù),有望將人類專家的知識(shí)和神經(jīng)網(wǎng)絡(luò)的推理能力更好地結(jié)合。
正如羅森布拉特在神經(jīng)網(wǎng)絡(luò)誕生之初所感受到的困境,今天的深度學(xué)習(xí)研究者也開始面臨計(jì)算工具的限制。在經(jīng)濟(jì)和環(huán)境的雙重壓力下,如果我們不能改變深度學(xué)習(xí)的方式,就必須面對(duì)這個(gè)領(lǐng)域進(jìn)展緩慢的未來。我們期待一場(chǎng)算法或硬件的突破,讓靈活而強(qiáng)大的深度學(xué)習(xí)模型能繼續(xù)發(fā)展,并為我們所用。
原文鏈接:
https://spectrum.ieee.org/deep-learning-computational-cost
論文鏈接:
https://arxiv.org/abs/2007.05558#
參考鏈接:
https://www.csail.mit.edu/news/computational-limits-deep-learning
本文來自微信公眾號(hào):環(huán)球科學(xué) (ID:huanqiukexue) 編譯 | 鄭昱虹 審校 | 白德凡
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。