設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

用 AI 打破編解碼器內(nèi)卷,高通最新頂會(huì)論文腦洞大開

量子位 2021/10/1 13:37:33 責(zé)編:在水

用 AI 搞視頻編解碼器,現(xiàn)在路子有點(diǎn)“野”。

插幀、過擬合、語(yǔ)義感知、GAN…… 你想過這些“腦洞”或 AI 算法,也能被用到編解碼器上面嗎?

例如,原本的算法每幀壓縮到 16.4KB 后,樹林開始變得無比模糊:

但在用上 GAN 后,不僅畫面更清晰,每幀圖像還更小了,只需要 14.5KB 就能搞定!

又例如,用插幀的思路結(jié)合神經(jīng)編解碼器,能讓最新壓縮算法效果更好……

這一系列算法的思路,背后究竟是什么原理,用 AI 搞編解碼器,潛力究竟有多大?

我們采訪了高通工程技術(shù)副總裁、高通 AI 研究方向負(fù)責(zé)人侯紀(jì)磊博士,了解了高通一些 AI 編解碼器中的算法細(xì)節(jié)和原理。

編解碼器標(biāo)準(zhǔn)逐漸“內(nèi)卷”

當(dāng)然,在了解 AI 算法的原理之前,需要先了解視頻到底是怎么壓縮的。

如果不壓縮,1 秒 30 幀、8bit 單通道色深的 480p 視頻,每秒就要傳輸 80+Mbps 數(shù)據(jù),想在網(wǎng)上實(shí)時(shí)看高清視頻的話,幾乎是不可能的事情。

目前,主要有色度子采樣、幀內(nèi)預(yù)測(cè)(空間冗余)和幀間預(yù)測(cè)(時(shí)間冗余)幾個(gè)維度的壓縮方法。

色度子采樣,主要是基于我們眼睛對(duì)亮度比對(duì)顏色更敏感的原理,壓縮圖像的色彩數(shù)據(jù),但視覺上仍然能保持與原圖接近的效果。

幀內(nèi)預(yù)測(cè),利用同一幀中的大片相同色塊(下圖地板等),預(yù)測(cè)圖像內(nèi)相鄰像素的值,得出的結(jié)果比原始數(shù)據(jù)更容易壓縮。

幀間預(yù)測(cè),用來消除相鄰幀之間大量重復(fù)數(shù)據(jù)(下圖的背景)的方法。利用一種名叫運(yùn)動(dòng)補(bǔ)償?shù)姆椒?,用運(yùn)動(dòng)向量(motion vector)和預(yù)測(cè)值計(jì)算兩幀之間像素差:

這些視頻壓縮的方法,具體到視頻編解碼器上,又有不少壓縮工作可以進(jìn)行,包括分區(qū)、量化、熵編碼等。

然而,據(jù)侯紀(jì)磊博士介紹,從 H.265 到 H.266,壓縮性能雖然提升了 30% 左右,但這是伴隨著編碼復(fù)雜度提高 30 倍、解碼復(fù)雜度提高 2 倍達(dá)成的。

這意味著編解碼器標(biāo)準(zhǔn)逐漸進(jìn)入了一個(gè)“內(nèi)卷”的狀態(tài),提升的壓縮效果,本質(zhì)上是用編解碼器復(fù)雜度來交換的,并不算真正完成了創(chuàng)新。

因此,高通從已有壓縮方法本身的原理、以及編解碼器的構(gòu)造入手,搞出了幾種有意思的 AI 視頻編解碼方法。

3 個(gè)方向提升壓縮性能

具體來說,目前的 AI 研究包括幀間預(yù)測(cè)方法、降低解碼復(fù)雜度和提高壓縮質(zhì)量三個(gè)方向。

“預(yù)判了 B 幀的預(yù)判”

從幀間預(yù)測(cè)來看,高通針對(duì) B 幀編解碼提出了一種新思路,論文已經(jīng)登上 ICCV 2021。

I 幀:幀內(nèi)編碼幀(intra picture)、P 幀:前向預(yù)測(cè)編碼幀(predictive-frame)、B 幀:雙向預(yù)測(cè)內(nèi)插編碼幀(bi-directional interpolated prediction frame)

目前的編解碼大多集中在 I 幀(幀內(nèi)預(yù)測(cè))和 P 幀上,而 B 幀則是同時(shí)利用 I 幀和 P 幀的雙向運(yùn)動(dòng)補(bǔ)償來提升壓縮的性能,在 H.265 中正式支持(H.264 沒有)。

雖然用上 B 幀后,視頻壓縮性能更好,但還是有兩個(gè)問題:

一個(gè)是視頻需要提前加載(必須提前編碼后面的 P 幀,才能得到 B 幀);另一個(gè)是仍然會(huì)存在冗余,如果 I 幀和 P 幀高度相關(guān),那么再用雙向運(yùn)動(dòng)補(bǔ)償就顯得很浪費(fèi)。

打個(gè)比方,如果從 I 幀→B 幀→P 幀,視頻中只有一個(gè)球直線運(yùn)動(dòng)了一段距離,那么再用雙向運(yùn)動(dòng)補(bǔ)償?shù)脑挘蜁?huì)很浪費(fèi):

這種情況下,用插幀似乎更好,直接通過時(shí)間戳就能預(yù)測(cè)出物體運(yùn)動(dòng)的狀態(tài),編碼計(jì)算量也更低。

但這又會(huì)出現(xiàn)新的問題:如果 I 幀和 P 幀之間有個(gè)非常大的突變,例如球突然在 B 幀彈起來了,這時(shí)候用插幀的效果就很差了(相當(dāng)于直接忽略了 B 幀的彈跳)。

因此,高通選擇將兩者結(jié)合起來,將基于神經(jīng)網(wǎng)絡(luò)的 P 幀壓縮和插幀補(bǔ)償結(jié)合起來,利用 AI 預(yù)測(cè)插幀后需要進(jìn)行的運(yùn)動(dòng)補(bǔ)償:

別說,效果還確實(shí)不錯(cuò),比谷歌之前在 CVPR 2020 上保持的 SOTA 紀(jì)錄更好,也要好于當(dāng)前基于 H.265 標(biāo)準(zhǔn)實(shí)現(xiàn)開源編解碼器的壓縮性能。

除此之外,高通也嘗試了一些其他的 AI 算法。

用“過擬合”降低解碼復(fù)雜度

針對(duì)編解碼器標(biāo)準(zhǔn)內(nèi)卷的情況,高通也想到了用 AI 做自適應(yīng)算法,來像“過擬合”一樣根據(jù)視頻比特流更新一個(gè)模型的權(quán)重增量,已經(jīng)有相關(guān)論文登上 ICLR 2021。

這種方法意味著針對(duì)單個(gè)模型進(jìn)行“過擬合”,對(duì)比特流中的權(quán)重增量進(jìn)行編碼,再與原來的比特流進(jìn)行一個(gè)比較。如果效果更好的話,就采用這種傳輸方式。

事實(shí)證明,在不降低壓縮性能的情況下,這種方法能將解碼復(fù)雜度降低 72%,同時(shí)仍然保持之前 B 幀模型達(dá)到的 SOTA 結(jié)果。

當(dāng)然,除了視頻壓縮性能以外,單幀圖像被壓縮的質(zhì)量也需要考慮,畢竟視覺效果也是視頻壓縮追求的標(biāo)準(zhǔn)之一。

用語(yǔ)義感知和 GAN 提高壓縮質(zhì)量

用語(yǔ)義感知和 GAN 的思路就比較簡(jiǎn)單了。

語(yǔ)義感知就是讓 AI 基于人的視覺來考慮,選出你在看視頻時(shí)最關(guān)注的地方,并著重那部分的比特分配情況。

例如你在看網(wǎng)球比賽時(shí),往往并不會(huì)關(guān)注比賽旁邊的觀眾長(zhǎng)什么樣、風(fēng)景如何,而是更關(guān)注球員本身的動(dòng)作、擊球方法等。

那么,就訓(xùn)練 AI,將更多的比特放到目標(biāo)人物身上就行,像這樣:

從結(jié)構(gòu)上來講也比較簡(jiǎn)單,也就是我們常見的語(yǔ)義分割 Mask(掩膜):

這種方法能很好地將受關(guān)注的局部區(qū)域幀質(zhì)量提升,讓我們有更好的觀看效果,而不是在視頻被壓縮時(shí),看到的整幅圖像都是“打上馬賽克”的樣子。

據(jù)高通表示,這種語(yǔ)義感知的圖像壓縮,目前已經(jīng)在擴(kuò)展到視頻壓縮上了,同樣是關(guān)注局部的方法,效果也非常不錯(cuò)。

而基于 GAN 的方法,則更加致力于用更少的比特?cái)?shù)生成視覺效果同樣好的圖像質(zhì)量:

據(jù)高通表示,數(shù)據(jù)集來自 CVPR 中一個(gè)針對(duì)圖像壓縮的 Workshop CLIC,提供了大約 1600 張的高清圖片,利用自研的模型,能在上面訓(xùn)練出很好的效果:

也就是開頭的圖片效果,即使在大小被壓縮后,基于 GAN 的圖像還是能取得更好的視覺質(zhì)量:

期待這些技術(shù)能馬上應(yīng)用到手機(jī)等設(shè)備上,讓我們看視頻的時(shí)候真正變得不卡。

相關(guān)論文:

[1]https://arxiv.org/abs/2104.00531

[2]https://arxiv.org/abs/2101.08687

參考鏈接:

[1]https://www.qualcomm.com/news/onq/2021/07/14/how-ai-research-enabling-next-gen-codecs

[2]https://github.com/leandromoreira/digital_video_introduction

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:高通,編解碼器

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知