IT之家 2 月 28 日消息,DeepSeek 在開源周第五天發(fā)布了 3FS(Fire-Flyer File System),這是一個專為充分利用現(xiàn)代 SSD 和 RDMA 網(wǎng)絡(luò)帶寬而設(shè)計的并行文件系統(tǒng),具備驚人的數(shù)據(jù)訪問性能,為深度學(xué)習(xí)等數(shù)據(jù)密集型應(yīng)用提供了強大的支持。
IT之家附上開源地址:https://github.com/deepseek-ai/3FS。
基于 3FS 的數(shù)據(jù)處理框架 Smallpond:https://github.com/deepseek-ai/smallpond。
3FS 性能亮點
集群高吞吐: 在 180 節(jié)點集群中,3FS 實現(xiàn)了高達 6.6 TiB/s 的聚合讀取吞吐量。
基準測試優(yōu)異: 在 25 節(jié)點集群的 GraySort 基準測試中,3FS 達到了 3.66 TiB / min 的吞吐量。
單節(jié)點高性能: 每個客戶端節(jié)點的 KVCache 查找峰值吞吐量超過 40 GiB/s。
架構(gòu)先進: 3FS 采用去中心化架構(gòu),并具備強一致性語義。
3FS 應(yīng)用場景
3FS (Fire-Flyer File System) 是一款高性能的分布式文件系統(tǒng),旨在解決 AI 訓(xùn)練和推理工作負載帶來的挑戰(zhàn),利用現(xiàn)代 SSD 和 RDMA 網(wǎng)絡(luò)提供共享存儲層,簡化分布式應(yīng)用程序的開發(fā)。
其核心優(yōu)勢在于高性能、強一致性和易用性,能夠有效支持各種 AI 工作負載,包括數(shù)據(jù)準備、數(shù)據(jù)加載、檢查點設(shè)置和推理緩存。
3FS 在 DeepSeek 的 V3 / R1 版本中得到廣泛應(yīng)用,涵蓋了訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、檢查點保存 / 重新加載、嵌入向量搜索以及推理過程中的 KVCache 查找等關(guān)鍵環(huán)節(jié)。
Smallpond
此外,DeepSeek 還開源了基于 3FS 的數(shù)據(jù)處理框架 Smallpond,是一款構(gòu)建于 DuckDB 和 3FS 之上的輕量級數(shù)據(jù)處理框架。它擁有高性能數(shù)據(jù)處理能力,可擴展至 PB 級數(shù)據(jù)集,并且操作簡便,無需長期運行的服務(wù)。
相關(guān)閱讀:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。