IT之家 8 月 15 日消息,京東云已推出 vGPU 池化方案,“該方案可提供一站式 GPU 算力池化能力,令 GPU 利用率最高提升 70%,大幅降低大模型推理成本”。
京東云表示,憑借其“自主研發(fā)的混合多云操作系統(tǒng)云艦”,京東云在原有支持混合多云 CPU 算力池化能力基礎(chǔ)上,針對(duì)大模型訓(xùn)練所需的泛算力池化能力,進(jìn)一步增加了針對(duì) AI 應(yīng)用所需的調(diào)度管理能力,包括卡管理、節(jié)點(diǎn)管理、異構(gòu)資源調(diào)度管理等,為包括大模型訓(xùn)練在內(nèi)的多種 AI 應(yīng)用,提供一站式算力池化解決方案,從而全面提升資源利用率。
京東云同時(shí)稱,自家池化方案具有四大優(yōu)勢(shì),IT之家轉(zhuǎn)錄相關(guān)內(nèi)容如下:
算力切分靈活:支持任意比例切分和動(dòng)態(tài)調(diào)整機(jī)制,可實(shí)現(xiàn)按顯卡算力、顯存做細(xì)粒度切分,一張物理卡可供多個(gè)容器使用,與整卡算力相比,性能衰減在 2% 以內(nèi)。
精細(xì)化配額管理:支持靈活的配額管理,按顯卡型號(hào) / label 配額,有效保障資源按需分配,提升推理穩(wěn)定性和訓(xùn)練性能。
多場(chǎng)景適配:適配主流 CUDA 版本和不同 GPU 芯片適配,支持 TensorFlows、Pytorch 等行業(yè)主流的 AI 訓(xùn)練框架。
多節(jié)點(diǎn)管理:支持節(jié)點(diǎn)虛擬分組和節(jié)點(diǎn)組指定應(yīng)用使用,全面提升大模型訓(xùn)練效率。
京東云表示,在使用場(chǎng)景中,開發(fā)者可以根據(jù)卡型號(hào)申請(qǐng)資源,按算力和顯存切分,統(tǒng)一由控制器根據(jù)用戶指定的調(diào)度策略調(diào)整。僅在訓(xùn)練、微調(diào)和推理任務(wù)啟動(dòng)時(shí)進(jìn)行動(dòng)態(tài)分配,在任務(wù)結(jié)束即可以釋放,支持多任務(wù)算力隔離和任務(wù)冷啟動(dòng)。
從實(shí)踐效果看,通過(guò) GPU 異構(gòu)資源池化,AI 運(yùn)行效率顯著提高,整體 GPU 利用率提升 70%。結(jié)合任意切分和按需分配,在同等 GPU 數(shù)量的前提下,實(shí)現(xiàn)了數(shù)倍業(yè)務(wù)量擴(kuò)展和資源共享,降低了硬件采購(gòu)成本,使用更少的 AI 芯片支撐了更多的訓(xùn)練和推理任務(wù)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。