英偉達(dá)：美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA T4 GPU，相比同成本 CPU 性能提升 10 倍

2021/12/25 16:08:38 來(lái)源：IT之家作者：孤城責(zé)編：孤城

評(píng)論：

IT之家 12 月 25 日消息，據(jù)英偉達(dá)官方消息，美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU，通過(guò)算子融合、計(jì)算圖等價(jià)替換等一系列優(yōu)化，相較于 CPU 在相同成本約束下，NVIDIA T4 GPU 大幅加速美團(tuán) CTR（Click-Through-Rate）模型預(yù)測(cè)性能，神經(jīng)網(wǎng)絡(luò)模型吞吐能力提升了 10 倍；同時(shí)在搜索精排場(chǎng)景中，端到端整體吞吐能力提升了一倍以上。

英偉達(dá)

英偉達(dá)表示，美團(tuán)的 CTR 模型過(guò)去一直在使用 CPU 推理的方式，但隨著用戶(hù)訪問(wèn)量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入，CTR 模型結(jié)構(gòu)趨于復(fù)雜，吞吐和計(jì)算量也越來(lái)越大，CPU 開(kāi)始不能滿(mǎn)足模型對(duì)于算力的需求，而僅僅通過(guò) CPU 服務(wù)器的堆疊帶來(lái)的性能提升性?xún)r(jià)比相較偏低。而 GPU 擁有數(shù)以千計(jì)的計(jì)算核心，可以在單機(jī)內(nèi)提供密集的并行計(jì)算能力，特別適合深度學(xué)習(xí)場(chǎng)景，在行業(yè)內(nèi)已經(jīng)在 CV、NLP 等領(lǐng)域展示了強(qiáng)大的能力。通過(guò) CUDA 及相關(guān) API，NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)?；诖耍缊F(tuán)基礎(chǔ)研發(fā)平臺(tái)將 CTR 模型部署到 GPU 上，并通過(guò)一系列針對(duì) CPU 與 GPU 的異構(gòu)系統(tǒng)并行計(jì)算設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)方式和傳輸方式上的特定優(yōu)化。

IT之家了解到，NVIDIA Tesla T4 GPU 是一款推理加速器，搭載 NVIDIA Turing Tensor Core。官方稱(chēng)，NVIDIA Tesla T4 GPU 具備人工智能推理的多精度計(jì)算性能，從 FP32 到 FP16 再到 INT8，又到 INT4 精度，T4 的性能比 CPU 高出 40 倍，實(shí)現(xiàn)性能的重大突破。

英偉達(dá)

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達(dá)：美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA T4 GPU，相比同成本 CPU 性能提升 10 倍

相關(guān)文章

英偉達(dá)：美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA T4 GPU，相比同成本 CPU 性能提升 10 倍