IT之家 5 月 19 日消息,互聯(lián)網(wǎng)是現(xiàn)代生活中難以想象的巨大寶庫,但即使全世界的用戶每天都依賴網(wǎng)絡(luò)來獲取書籍、圖片、新聞報(bào)道和其他資源,這些內(nèi)容最終也有可能從人們的視線中消失。皮尤研究中心當(dāng)?shù)貢r(shí)間 17 日發(fā)表的研究發(fā)現(xiàn),當(dāng)前的在線內(nèi)容仍然是“稍縱即逝”。
研究人員從 Common Crawl(IT之家注:一項(xiàng)互聯(lián)網(wǎng)檔案服務(wù),定期收集網(wǎng)站在不同時(shí)間點(diǎn)的快照)的檔案中隨機(jī)抽樣收集了大約 100 萬個(gè)網(wǎng)頁,從 2013 年到 2023 年,每年從 Common Crawl 收錄的網(wǎng)頁中抽取樣本,并檢查這些樣本在當(dāng)下是否仍然存在。
數(shù)據(jù)顯示,在 2013 年存在的網(wǎng)頁中,約有 38% 如今已不可用,而在 2023 年存在的網(wǎng)頁中,這一比例僅為 8%。
在我們從 2013 年到 2023 年收集的所有網(wǎng)頁中,有 25% 到 2023 年 10 月已無法訪問。這些網(wǎng)頁無法訪問的結(jié)果包含兩種不同情況:16% 的頁面是網(wǎng)頁不在域名還在;另外 9% 的頁面則是連域名都不在了。
具體來看,在抽樣調(diào)查的新聞網(wǎng)站中,23% 的網(wǎng)頁至少包含一個(gè)失效鏈接,高流量新聞網(wǎng)站和低流量新聞網(wǎng)站網(wǎng)頁包含的壞鏈比例基本相同,網(wǎng)站流量排名前 20% 的新聞網(wǎng)站中,約 25% 的網(wǎng)頁至少包含一個(gè)失效鏈接;網(wǎng)站流量排名后 20% 的網(wǎng)站中,數(shù)據(jù)則是 26%。
百科類網(wǎng)站方面,此次研究人員選擇了維基百科的“參考鏈接”部分。在總共 100 多萬個(gè)參考鏈接中,有 11% 已經(jīng)無法訪問;54% 的維基百科網(wǎng)頁參考鏈接至少包含一個(gè)失效鏈接。
社交網(wǎng)站方面,研究人員 2023 年 3 月 8 日至 4 月 27 日期間在社交媒體平臺(tái) X(推特)上發(fā)布的近 500 萬條推文樣本,試圖每日進(jìn)行觀察,直到 2023 年 6 月 15 日這些推文是否還在網(wǎng)站上。研究發(fā)現(xiàn)接近 18% 的推文在 3 個(gè)月內(nèi)就基本不可見。其中六成是因?yàn)橘~號(hào)被設(shè)為私密、被凍結(jié)或注銷;四成是因?yàn)橘~號(hào)發(fā)布者自己刪除,但賬號(hào)本身還活躍。
參考
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。