首頁 > 智能時(shí)代>人工智能

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

量子位 2023/7/13 22:46:03 責(zé)編：遠(yuǎn)洋

評論：

大模型重塑一切的浪潮，正在加速涌向移動(dòng)應(yīng)用。

不久前，高通剛在 MWC 上露了一手純靠手機(jī)跑 Stable Diffusion，15 秒就能出圖的騷操作：

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

3 個(gè)月后的 CVPR 2023 上，參數(shù)加量到 15 億，ControlNet 也已在手機(jī)端閃亮登場，出圖全程僅用了不到 12 秒：

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

更令人意想不到的速度是，高通技術(shù)公司產(chǎn)品管理高級副總裁兼 AI 負(fù)責(zé)人 Ziad Asghar 透露：

從技術(shù)角度來說，把這些 10 億 + 參數(shù)大模型搬進(jìn)手機(jī)，只需要不到一個(gè)月的時(shí)間。

并且這還只是個(gè)開始。

在與量子位的交流中，Ziad 認(rèn)為：

大模型正在迅速重塑人機(jī)交互的方式。這會讓移動(dòng)應(yīng)用的使用場景和使用方式發(fā)生翻天覆地的變化。

“大模型改變終端交互方式”

每一個(gè)看過《鋼鐵俠》的人，都很難不羨慕鋼鐵俠無所不能的助手賈維斯。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

盡管語音助手早已不是什么新鮮事物，但其現(xiàn)如今的形態(tài)多少還是離科幻電影中的智能助手有點(diǎn)差距。

而大模型，在 Ziad 看來，正是一個(gè)破局者。

大模型有能力真正重塑我們與應(yīng)用交互的方式。

這種改變的一種具體的表現(xiàn)，就是 all in one。

也就是說，通過大模型加持下的數(shù)字助手這一個(gè)應(yīng)用入口，人們就可以在手機(jī)這樣的終端上操控一切：

通過自然語言指令，數(shù)字助手能自動(dòng)幫你管理所有手機(jī)上的 APP，完成辦理銀行業(yè)務(wù)、撰寫電子郵件、制定旅程并訂票等等各種操作。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

更為關(guān)鍵的是，這樣的數(shù)字助手還能做到“私人訂制”——

手機(jī)上的個(gè)性化數(shù)據(jù)，與能夠理解文字、語音、圖像、視頻等多模態(tài)輸入的大語言模型相結(jié)合，就能使數(shù)字助手更為精準(zhǔn)地把握使用者的偏好。

并且這樣的個(gè)性化體驗(yàn)，可以在不犧牲隱私的情況下實(shí)現(xiàn)。

從技術(shù)的角度來說，背后關(guān)鍵，其實(shí)就是如今把 Stable Diffusion 和 ControlNet 搬進(jìn)手機(jī)的混合 AI 架構(gòu)及作為支撐的量化、編譯和硬件加速優(yōu)化等 AI 技術(shù)。

混合 AI，指的是終端和云端協(xié)同工作，在適當(dāng)場景和時(shí)間下分配 AI 計(jì)算的工作負(fù)載，以更為高效地利用算力資源。

量化、編譯和硬件加速優(yōu)化，則是實(shí)現(xiàn)混合 AI 的關(guān)鍵 AI 技術(shù)，受到高通等終端 AI 廠商的長期關(guān)注和押注。

量化，是將更大的模型在精度不變的情況下，從浮點(diǎn)數(shù)轉(zhuǎn)變成整數(shù)，節(jié)省計(jì)算時(shí)間；又或是在確保模型性能的同時(shí)，對其大小進(jìn)行壓縮，使之更容易部署在終端。

編譯器是 AI 模型能夠以最高性能和最低功耗高效運(yùn)行的關(guān)鍵。AI 編譯器將輸入的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為可以在目標(biāo)硬件上運(yùn)行的代碼，同時(shí)針對時(shí)延、性能和功耗進(jìn)行優(yōu)化。

硬件加速方面，以高通為例，其 AI 引擎中的關(guān)鍵核心 Hexagon 處理器，采用專用供電系統(tǒng)，支持微切片推理、INT4 精度、Transformer 網(wǎng)絡(luò)加速等，能夠在提供更高性能的同時(shí)，降低能耗和內(nèi)存占用。

數(shù)據(jù)顯示，Transformer 加速大幅提升了生成式 AI 中充分使用的多頭注意力機(jī)制的推理速度，在使用 MobileBERT 的特定用例中能帶來 4.35 倍的 AI 性能提升。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

以 Stable Diffusion 為例，現(xiàn)在，高通的研究人員通過量化、編譯和硬件加速優(yōu)化，已經(jīng)能夠在搭載第二代驍龍 8 移動(dòng)平臺的手機(jī)上，以 15 秒 20 步推理的速度運(yùn)行這一模型，生成出 512×512 像素的圖片。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

△ 圖源油管 @TK Bay

這樣一來，整個(gè)推理過程可以完全只靠手機(jī)實(shí)現(xiàn) —— 開著飛行模式不聯(lián)網(wǎng)也能做到。

這類 AI 技術(shù)的部署并非易事，Ziad 表示在相關(guān)軟件、工具和硬件方面，高通準(zhǔn)備了 2-3 年的時(shí)間。

但現(xiàn)在，當(dāng)高通 AI 模型增效工具包、高通 AI 軟件棧和高通 AI 引擎等軟硬件工具齊備之后，正如前文所言，高通只花了不到一個(gè)月的時(shí)間，就實(shí)現(xiàn)了 Stable Diffusion 在驍龍平臺上的高速運(yùn)行。

也就是說，當(dāng)基礎(chǔ)技術(shù)準(zhǔn)備就緒，包括大模型在內(nèi)的生成式 AI 部署，就會更加容易，原本無法想象的“大模型部署到終端變成數(shù)字助手”，現(xiàn)在看來也并非不可能。

具體而言，在硬件上混合 AI 和軟件 AI 技術(shù)的“雙重”架構(gòu)下，部署在手機(jī)等終端中的大模型，可以在終端側(cè)根據(jù)用戶習(xí)慣不斷優(yōu)化和更新用戶畫像，從而增強(qiáng)和打造定制化的生成式 AI 提示。這些提示會以終端側(cè)為中心進(jìn)行處理，只在必要時(shí)向云端分流任務(wù)。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

Ziad 也進(jìn)一步向我們解釋說：

云不了解你，但終端設(shè)備了解你。如果模型可以在設(shè)備上進(jìn)行微調(diào)，那它的功能將非常強(qiáng)大。
這也是突破大模型幻覺和記憶瓶頸的方式之一。高通可以做到通過一系列技術(shù)讓大模型在不聯(lián)網(wǎng)的情況下，借助終端設(shè)備數(shù)據(jù)長時(shí)間提供“專屬”服務(wù)，同時(shí)也保護(hù)了用戶隱私。

值得關(guān)注的是，Ziad 還透露，在 Stable Diffusion 和 ControlNet 之外，基于高通全棧式的軟件和硬件能力，研究人員正在將更多生成式 AI 模型遷移到手機(jī)之中，參數(shù)量也正在向百億級別進(jìn)發(fā)。

很快，你就會在終端上看到像 LLaMA 7B / 13B 這樣的模型。一切工具已經(jīng)就緒，剩下的只是時(shí)間問題。

而且，雖然目前能在終端側(cè)部署的只是“特定”的大模型，但隨著技術(shù)的不斷應(yīng)用成熟，能部署的大模型數(shù)量、模態(tài)類型和部署形式，都會飛速進(jìn)化。Ziad 表示：

隨著更多更好的 AI 算法被開源出來，我們也能更快地沿用這套軟硬件技術(shù)將它們部署到終端側(cè)，這其中就包括文生視頻等各種多模態(tài) AI。

這樣來看，未來用戶將自己想用的大模型遷移到手機(jī)端，成為超級助手的核心，也并非不可能實(shí)現(xiàn)。

大模型正在重塑移動(dòng)互聯(lián)網(wǎng)

實(shí)際上，手機(jī)上的交互變革，還只是冰山一角。

早在生成式 AI、大模型技術(shù)爆發(fā)之前，在移動(dòng)互聯(lián)網(wǎng)時(shí)代，AI 需求已經(jīng)呈現(xiàn)出向邊緣設(shè)備轉(zhuǎn)移的趨勢。

正如 Ziad 的觀點(diǎn)“終端側(cè) AI 是 AI 的未來”一樣，隨著以大模型為代表的生成式 AI 浪潮加速改變?nèi)藱C(jī)交互方式，更多終端側(cè)如筆記本電腦、AR / VR、汽車和物聯(lián)網(wǎng)終端等，也都會因?yàn)檫@場變革迎來重塑，甚至反過來加速 AI 規(guī)模化落地。

在這個(gè)過程中，不僅硬件會誕生新的衡量標(biāo)準(zhǔn)，軟件上以大模型為核心的超級 AI 應(yīng)用，更是有可能出現(xiàn)。

首先是硬件上，由于終端側(cè)算力會成為延展生成式 AI 落地應(yīng)用不可或缺的一部分，對于移動(dòng)端芯片本身來說，AI 處理能力也會日益凸顯，甚至成為新的設(shè)計(jì)基準(zhǔn)之一。

隨著大模型變得更受歡迎、更多應(yīng)用不斷接入其能力，更多潛在的用戶也會意識到大模型具備的優(yōu)勢，從而導(dǎo)致這類技術(shù)使用次數(shù)的迅猛上升。

但云端算力終究有限。Ziad 認(rèn)為：

隨著 AI 計(jì)算需求的增加，云端算力必然無法承載如此龐大的計(jì)算量，從而導(dǎo)致單次查詢成本急劇增加。
要解決這一問題，就應(yīng)當(dāng)讓更多算力需求“外溢”到終端，依靠終端算力來緩解這一問題。

為了讓更多大模型在終端就能處理甚至運(yùn)行，從而降低調(diào)用成本，必然需要在確保用戶體驗(yàn)的同時(shí)，提升移動(dòng)端芯片處理 AI 的能力。

長此以往，AI 處理能力會成為衡量硬件能力的 benchmark，如同過去手機(jī)芯片比拼通用算力和 ISP 影像能力一樣，成為整個(gè)移動(dòng)端芯片的新“賽點(diǎn)”。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

誰能在設(shè)計(jì)移動(dòng)端芯片時(shí)將之考慮進(jìn)去，誰就更有可能取得這場大模型較量的話語權(quán)。

不止是硬件。軟件上，通過改變?nèi)藱C(jī)交互的方式，大模型將重塑包括娛樂、內(nèi)容創(chuàng)作、生產(chǎn)力在內(nèi)的所有移動(dòng)應(yīng)用。

在這種情況下，越來越多的大模型、或者說生成式 AI 會參與其中，重塑不同移動(dòng)端 AI 應(yīng)用，而這些應(yīng)用隨著不同移動(dòng)端算力和應(yīng)用場景的差異，又會有所不同：

在智能手機(jī)端，正如前文所述，這種重塑會率先出現(xiàn)在搜索和“智能助手”上。例如，只需要一句“安排 5 人會議”，大模型就能將以往需要用電子郵件反復(fù)確認(rèn)的消息簡化成一條指令，自動(dòng)發(fā)送到其他人的日歷上。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

而在筆記本電腦和 PC 上，最大的影響可能是工具生產(chǎn)效率的提升，如使用 Office 的方式不再需要是依靠打字輸入內(nèi)容，而是聊聊天就能完成自己想要寫的報(bào)告、處理的 PPT。

至于在汽車端，率先受到影響的可能會是數(shù)字助理和自動(dòng)駕駛軟件，像使用導(dǎo)航軟件時(shí)不再需要點(diǎn)擊目的地，而是直接告訴它“我想去 XX，中途安排一個(gè)吃飯的地點(diǎn)，別太貴”，大模型就能讀懂人話，自動(dòng)規(guī)劃汽車路線。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

又或是 XR 更吸引人的應(yīng)用重塑，在于 3D 內(nèi)容創(chuàng)作和沉浸式體驗(yàn)；物聯(lián)網(wǎng)的改變，則可能發(fā)生在運(yùn)營效率和客戶支持應(yīng)用上……

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

當(dāng)然，這并不意味著 AI 小模型的“消失”。大模型出現(xiàn)之前，圖像應(yīng)用已經(jīng)成為移動(dòng)端 AI 落地最顯著的領(lǐng)域，包括 AI 修圖、暗景視頻拍攝去噪算法等在內(nèi)已有不少成熟的 AI 應(yīng)用。

Ziad 認(rèn)為，生成式 AI 的出現(xiàn)并不會替代已有 AI 應(yīng)用，甚至在其刺激下，CPU、GPU、AI 處理器的升級進(jìn)化，會進(jìn)一步提升去噪等傳統(tǒng) AI 算法的能力。

同時(shí)，移動(dòng)端應(yīng)用之間并非“孤島”。無論智能手機(jī)、電腦、汽車、物聯(lián)網(wǎng)還是 XR，一旦大模型促使某個(gè)真正的“殺手級”應(yīng)用出現(xiàn)，勢必也會在各個(gè)移動(dòng)端之間部署。

因此在這波大模型浪潮下，如何讓開發(fā)的應(yīng)用快速適配到不同移動(dòng)端，實(shí)現(xiàn)“一次開發(fā)多端互聯(lián)”，也是不可或缺的技術(shù)趨勢。

總而言之，從硬件的芯片設(shè)計(jì)、軟件的應(yīng)用程序，到應(yīng)用的整體開發(fā)方式，大模型都在給移動(dòng)端、甚至是整個(gè)移動(dòng)互聯(lián)網(wǎng)帶來改變。

那么，高通在這場大模型變革浪潮中會扮演什么樣的角色？

Ziad 認(rèn)為，高通將會領(lǐng)導(dǎo)技術(shù)前沿，成為引領(lǐng)這場變革的核心：

在終端側(cè)，無論是從硬件還是軟件而言，高通都處在領(lǐng)先地位。不僅僅是手機(jī)，在電腦、AR、VR、汽車、物聯(lián)網(wǎng)等領(lǐng)域都是如此。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

而這份信心的來源，是高通長期的 AI 技術(shù)積累，“一切工具都已經(jīng)就緒”。

無論是硬件上的 Hexagon AI 處理器、讓生成式 AI 在云端和終端之間“無縫”應(yīng)用的混合 AI，還是軟件上所具備的量化、壓縮、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS）和編譯等技術(shù)，高通都已經(jīng)具備了將大模型隨時(shí)應(yīng)用到終端側(cè)的技術(shù)儲備。

一旦成功將大模型部署到某個(gè)終端側(cè)，如智能手機(jī)，就能通過高通 AI 軟件棧將之迅速部署到其他所有端側(cè)設(shè)備上，進(jìn)一步加速大模型的規(guī)模化落地。

像 10 億參數(shù) Stable Diffusion 模型，在部署到手機(jī)上之后，也已經(jīng)實(shí)現(xiàn)在搭載驍龍計(jì)算平臺的筆記本上運(yùn)行。

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

面對這波大模型浪潮下生成式 AI 帶來的機(jī)遇和挑戰(zhàn)，不少科技公司都在尋找應(yīng)對之策，以探求如何跟進(jìn)其中的技術(shù)。

至少在終端側(cè)，高通已經(jīng)以技術(shù)玩家的身份，為行業(yè)率先打了個(gè)樣。

One More Thing

在這波生成式 AI 熱潮下，大模型是否可能帶來新的如微信一樣的“殺手級”應(yīng)用？高通如何看待這個(gè)觀點(diǎn)？

Ziad 回答稱，可能會，而且這類“殺手級”應(yīng)用，更可能率先在中國出現(xiàn)：

如果按發(fā)展趨勢來看的話，中國確實(shí)可能會更快出現(xiàn)這類應(yīng)用。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題

“大模型改變終端交互方式”

大模型正在重塑移動(dòng)互聯(lián)網(wǎng)

One More Thing

相關(guān)文章

大模型加速涌向移動(dòng)端！ControlNet 手機(jī)出圖只需 12 秒，高通 AI 掌門人：LLaMA 也只是時(shí)間問題