抖音首次公開(kāi)推薦算法原理

2025/3/30 17:20:25 來(lái)源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 西窗舊事華南吳彥祖 的線(xiàn)索投遞!

IT之家 3 月 30 日消息,抖音總裁韓尚佑今日宣布,“抖音安全與信任中心”網(wǎng)站上線(xiàn)。網(wǎng)站首次公開(kāi)抖音推薦算法原理,介紹其推薦算法如何預(yù)估用戶(hù)行為概率,并通過(guò)多目標(biāo)建模等方式實(shí)現(xiàn)更優(yōu)質(zhì)、豐富的內(nèi)容推薦,而算法需由平臺(tái)治理體系對(duì)其進(jìn)行約束和規(guī)范。

據(jù)IT之家了解,網(wǎng)站也披露了抖音平臺(tái)治理的審核流程,闡述平臺(tái)如何應(yīng)對(duì)謠言、網(wǎng)暴等違規(guī)內(nèi)容帶來(lái)的挑戰(zhàn)。

同時(shí),抖音還介紹了自家的“Wide&Deep”和“雙塔召回”兩種模型。

Wide&Deep 模型的主要思路正如其名,是由單層的 Wide 部分和多層的 Deep 部分組成的混合模型。其中,Wide 部分的主要作用是讓模型具有較強(qiáng)的“記憶能力”(memorization),“記憶能力”可以被理解為模型直接學(xué)習(xí)并利用歷史數(shù)據(jù)中物品或者特征的“共現(xiàn)頻率”的能力;Deep 部分的主要作用是讓模型具有“泛化能力”(generalization),“泛化能力”可以被理解為模型傳遞特征的相關(guān)性,以及發(fā)掘稀疏甚至從未出現(xiàn)過(guò)的稀有特征與最終標(biāo)簽相關(guān)性的能力。

Wide&Deep 模型的這一結(jié)構(gòu)特征,可以解決協(xié)同過(guò)濾算法的短板。協(xié)同過(guò)濾算法優(yōu)點(diǎn)突出,但是其局限性也很明顯,就是泛化能力差,推薦的結(jié)果頭部效應(yīng)比較明顯。也就是容易造成信息單一問(wèn)題。

一條視頻從海量信息中被選中,推送給用戶(hù),一般要經(jīng)過(guò)進(jìn)入內(nèi)容池、召回、排序三個(gè)環(huán)節(jié)。用戶(hù)發(fā)布的新視頻首先要經(jīng)過(guò)初步評(píng)估進(jìn)入內(nèi)容池,然后進(jìn)入召回環(huán)節(jié),其作用是從海量的內(nèi)容池中,初步快速粗篩出一大批用戶(hù)可能感興趣的內(nèi)容。

舉例來(lái)說(shuō),召回環(huán)節(jié)需要用到召回模型,抖音最常用的召回模型是“雙塔召回模型”(Two-Tower Retrieval Model)。雙塔召回模型把用戶(hù)和內(nèi)容都轉(zhuǎn)化為數(shù)學(xué)空間里的一個(gè)個(gè)點(diǎn),就像是給用戶(hù)和內(nèi)容貼上了獨(dú)特的“數(shù)字標(biāo)簽”,這個(gè)過(guò)程叫做向量化表征學(xué)習(xí)。其大概過(guò)程如下:

  • (1)分別將用戶(hù)特征、內(nèi)容特征進(jìn)行數(shù)學(xué)轉(zhuǎn)化(如展示小貓的視頻為 0,展示小狗的視頻為 1,短視頻為 0,長(zhǎng)視頻為 1,那么一個(gè)展示小貓的長(zhǎng)視頻即(0,1),其實(shí)際長(zhǎng)度取決于特征有多少維度,用戶(hù)特征同理);

  • (2)將轉(zhuǎn)化后的數(shù)學(xué)特征輸入到用戶(hù)塔、內(nèi)容塔兩個(gè)深度學(xué)習(xí)模型中,經(jīng)過(guò)訓(xùn)練,各自形成一組新的數(shù)字集合,這叫做用戶(hù)表征和內(nèi)容表征。在這一步,原本各自代表一個(gè)現(xiàn)實(shí)特征的數(shù)字不再具備任何實(shí)際語(yǔ)義,兩個(gè)模型會(huì)把用戶(hù)特征和內(nèi)容特征都轉(zhuǎn)化為沒(méi)有現(xiàn)實(shí)意義的數(shù)字代碼 —— 因此,算法不用理解現(xiàn)實(shí)語(yǔ)義,只需處理純粹的數(shù)學(xué)符號(hào);

  • (3)將兩組形式為純粹的數(shù)字集合的用戶(hù)表征和內(nèi)容表征,放入同一個(gè)向量空間中,每一組數(shù)字集合便在向量空間中擁有了一組專(zhuān)屬的向量值,好比一組獨(dú)有的“數(shù)字指紋”;

  • (4)將訓(xùn)練過(guò)的所有內(nèi)容表征的向量值和當(dāng)前用戶(hù)表征的向量值的距離進(jìn)行對(duì)比,距離越接近代表用戶(hù)越喜歡。當(dāng)你的“數(shù)字指紋”和某個(gè)視頻的“數(shù)字指紋”在坐標(biāo)系里剛好比較“匹配”(距離近),算法就會(huì)推薦它。

今年 1 月,抖音集團(tuán)宣布擬推出 10 項(xiàng)措施,推動(dòng)平臺(tái)工作透明化,創(chuàng)建安全與信任的平臺(tái)環(huán)境,打造更良好的網(wǎng)絡(luò)生態(tài),其中包括推進(jìn)算法透明化推進(jìn)平臺(tái)治理透明化。

1.推進(jìn)算法透明化。2025 年,抖音將建設(shè)安全與信任中心網(wǎng)站和線(xiàn)下公示展廳,面向社會(huì)全面深入地公開(kāi)抖音的算法基礎(chǔ)運(yùn)作原理、運(yùn)營(yíng)機(jī)制,也將對(duì)外公布各類(lèi)熱點(diǎn)榜單的計(jì)算原理和機(jī)制,提高透明度。

2.推進(jìn)平臺(tái)治理透明化。抖音將持續(xù)加大治理工作的技術(shù)研究、產(chǎn)品人力、資金投入。在抖音安全與信任中心,我們將面向社會(huì)全面公開(kāi)抖音的社區(qū)規(guī)范、審核標(biāo)準(zhǔn)、審核機(jī)制;并將定期公開(kāi)平臺(tái)治理的各類(lèi)典型違規(guī)案件和現(xiàn)象,明確對(duì)各類(lèi)問(wèn)題的治理態(tài)度,接受公眾監(jiān)督。

相關(guān)閱讀:

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:算法抖音,推薦算法

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知