DeepSeek 新專利公布：減少數(shù)據(jù)采集時網(wǎng)絡(luò)資源消耗

2025/4/2 10:23:29 來源：IT之家作者：清源責編：清源

評論：

IT之家 4 月 2 日消息，IT之家從國家知識產(chǎn)權(quán)局中國專利公布公告網(wǎng)獲悉，DeepSeek 關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于 4 月 1 日公布。

專利摘要顯示：

該發(fā)明的有益效果在于：發(fā)現(xiàn)盡可能多的網(wǎng)頁鏈接，并減少對網(wǎng)站的流量沖擊；對已經(jīng)下載的內(nèi)容進行分析，對未下載的鏈接進行質(zhì)量推斷，通過擇優(yōu)下載分配額度的方式，減少低質(zhì)量網(wǎng)頁下載和重復下載，提高數(shù)據(jù)質(zhì)量及下載效率，減少在數(shù)據(jù)采集過程中網(wǎng)絡(luò)資源的消耗；采用單獨的信息回灌隊列，保證網(wǎng)頁元信息庫修改操作的原子性和穩(wěn)定性。

DeepSeek 新專利公布：減少數(shù)據(jù)采集時網(wǎng)絡(luò)資源消耗

背景技術(shù)稱：近年來，隨著人工智能技術(shù)的進展，NLP 自然語言領(lǐng)域取得了巨大的進步。許多大語言模型 (Large Language Models,LLMs) 被訓練應用于自然語言處理領(lǐng)域，用于研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。

大語言模型的訓練需要構(gòu)建一個高質(zhì)量、多樣化的大語言模型數(shù)據(jù)集，這需要將網(wǎng)頁數(shù)據(jù)采集并處理后得到大量高質(zhì)量的文本信息作為模型的輸入，用于大語言模型進行訓練。

然而，現(xiàn)有的數(shù)據(jù)采集技術(shù)存在諸多問題，比如對復雜站點進行采集時，無法獲取完整鏈接；容易過量下載，造成對方網(wǎng)站崩潰；對下載頁面不進行內(nèi)容質(zhì)量分析和推斷，造成重復下載或低質(zhì)下載、影響數(shù)據(jù)采集的效率。

因此，在大量網(wǎng)頁數(shù)據(jù)獲取的過程中，如何快速、精準、安全、高效地采集互聯(lián)網(wǎng)數(shù)據(jù)變得至關(guān)重要。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek 新專利公布：減少數(shù)據(jù)采集時網(wǎng)絡(luò)資源消耗

相關(guān)文章