英偉達(dá)又雙叒迎來強(qiáng)勁挑戰(zhàn)者了。
成立于 2016 年的初創(chuàng)公司 Groq 在最新一輪融資中籌集了 6.4 億美元,由 BlackRock Inc. 基金領(lǐng)投,并得到了思科和三星投資部門的支持。
目前,Groq 的估值已經(jīng)達(dá)到 28 億美元。公司創(chuàng)始人 Jonathan Ross 曾在谷歌從事 TPU 芯片的開發(fā),而 Groq 目前的頂梁柱 LPU 也是專門用于加速 AI 基礎(chǔ)模型,尤其是 LLM。
Ross 表示,一旦人們看到在 Groq 的快速引擎上使用大語言模型有多么方便,LLM 的使用量將會進(jìn)一步增加。
以更低的價格和能耗,達(dá)到與英偉達(dá)芯片相同的速度,甚至更快,讓 Groq 有底氣叫板英偉達(dá)。值得一提的是,Groq 還宣布,圖靈獎得主 LeCun 即將擔(dān)任技術(shù)顧問。LeCun 的正式加入,成為 Groq 在競爭激烈的芯片領(lǐng)域一個強(qiáng)大的盟友。
每秒 1256.54 個 token,快如閃電
天下武功,唯快不破。而能打敗每秒響應(yīng) 800 個 token 的 Groq 只有下一代的 Groq。
從 500 token 到 800 token 再到 1256.54 token / s,Groq 如此之快的速度可謂是讓一眾 GPU 望塵莫及。
隨著 7 月初新功能的低調(diào)發(fā)布,Groq 現(xiàn)在的結(jié)果要比之前演示的要快得多,也智能得多,不僅支持文本查詢,還能輸入語音命令進(jìn)行查詢。
默認(rèn)情況下,Groq 的網(wǎng)站引擎使用 Meta 的開源 Llama3-8b-8192 大語言模型。
用戶還可以選擇更大的 Llama3-70b,以及來自 Google 的 Gemma 和 Mistral 模型,并且很快也將支持其他模型。
這種快速且靈活的體驗對于開發(fā)者來說非常重要。在傳統(tǒng) AGI 處理數(shù)據(jù)時,等待是稀松平常的事情,要看著字符一個一個吐出來再進(jìn)行下一步的操作。
而在最新版本的 Groq 中,以上任務(wù)幾乎全部瞬間回答,快如閃電。舉個栗子。比如,在 Groq 上讓它評論 VB Transform 活動議程有哪些地方可以加以改進(jìn)。
1225.15token / s 的速度 —— 幾乎就在一瞬間回答就彈了出來。
而且內(nèi)容也十分詳細(xì)清楚,包括建議更清晰的分類、更詳細(xì)的會議描述和更好的演講者簡介等等,共十點修改意見。
當(dāng)語音輸入要求推薦一些優(yōu)秀的演講者以使陣容更加多樣化時,它立即生成了一份名單,姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的,并且以清晰表格格式呈現(xiàn)。
要求它追加一列聯(lián)系方式,也瞬間補(bǔ)充好郵箱地址和推特賬號,不在話下。
再舉個栗子。視頻中巴拉巴拉說了一分多鐘,要求 Groq 為下周的演講課程創(chuàng)建一個日程表格。
Groq 不僅耐心地聽懂了,創(chuàng)建了要求的表格,還允許快速輕松地進(jìn)行修改,包括拼寫更正。
還可以改變主意,要求它為我忘記要求的內(nèi)容創(chuàng)建額外的欄目,耐心高效細(xì)致,甲方眼里的完美乙方不過如此。
還可以翻譯成不同的語言。有時會出現(xiàn)發(fā)出了幾次請求才做出更正的情況,但這種錯誤一般是在 LLM 層面,而不是處理層面。
可以說,從 500 token / s 到 800 token / s 再到如今直接拉到每秒四位數(shù)的生成速度,把 GPT-4 和英偉達(dá)秒的更徹底了。
當(dāng)然,除了「快」之外,此次更新的另一亮點是除了引擎內(nèi)直接輸入查詢,還允許用戶通過語音命令進(jìn)行查詢。
Groq 使用了 OpenAI 的最新開源的自動語音識別和翻譯模型 Whisper Large v3,將語音轉(zhuǎn)換為文本,然后作為 LLM 的提示。
提速增效再加多模態(tài)輸入,不卡頓還能不打字,這種創(chuàng)新的使用方式為用戶提供了極大的便利。
Groq + Llama 3 強(qiáng)強(qiáng)聯(lián)合
7 月 17 日,Groq 的研究科學(xué)家 Rick Lamers 又在推特上官宣了一個「秘密項目」—— 微調(diào)出的 Llama3 Groq Synth Tool Use 模型 8B 和 70B 型號,旨在提升 AI 的工具使用和函數(shù)調(diào)用能力。
團(tuán)隊結(jié)合了全量微調(diào)和直接偏好優(yōu)化(DPO),并且完全使用符合道德規(guī)范的生成數(shù)據(jù),沒有涉及任何用戶數(shù)據(jù)。
伯克利函數(shù)調(diào)用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的數(shù)據(jù)全部來源于真實世界,專門用于評估 LLM 調(diào)用工具或函數(shù)的的能力。
Groq 本次發(fā)布的微調(diào) Llama3 8B 和 70B 的版本都在 BFCL 上取得了相當(dāng)驚艷的成績,總體準(zhǔn)確率分別為 90.76% 和 89.06%。
其中,70B 版本的分?jǐn)?shù)超過了 Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等專有模型,達(dá)到了 BFCL 榜單第一的位置。
兩個版本的模型都已開源,用戶可從 HuggingFace 上下載權(quán)重或通過 GroqCloud 訪問。
HugggingFace 地址:https://huggingface.co/ Groq
此外,Groq 還在 Llama 3 的基礎(chǔ)上進(jìn)一步發(fā)揮自己「唯快不破」的秘籍,推出了一款名為 Groqbook 的應(yīng)用程序,可以在 1 分鐘內(nèi)內(nèi)生成出一整本書。
根據(jù) GitHub 主頁的介紹,Groqbook 混合使用了 Llama3-8B 和 70B 兩個模型,用較大模型生成結(jié)構(gòu),再讓較小模型創(chuàng)作具體內(nèi)容。
目前,這個程序只適用于非虛構(gòu)類書籍,并需要用戶輸入每一章節(jié)的標(biāo)題作為上下文。
Groq 表示,未來將讓 Groqbook 生成整本書內(nèi)容,并擴(kuò)展到虛構(gòu)類書籍,創(chuàng)作出高質(zhì)量的小說。
開發(fā)者 4 個月突破 28 萬
解決了用戶使用的核心痛點,Groq 自然備受使用者歡迎。
上線 4 個月后,Groq 已經(jīng)開始免費提供服務(wù)來處理 LLM 工作負(fù)載,吸引了超過 28.2 萬名開發(fā)者使用。
Groq 提供了一個平臺供開發(fā)者構(gòu)建他們的應(yīng)用程序,類似于其他推理服務(wù)提供商。
然而,Groq 的特別之處在于,它允許在 OpenAI 上構(gòu)建應(yīng)用程序的開發(fā)者通過簡單的步驟在幾秒鐘內(nèi)將他們的應(yīng)用程序遷移到 Groq。
Ross 表示他將很快專注于需求量極大的企業(yè)市場。大公司正在廣泛推進(jìn) AI 應(yīng)用的部署,因此需要更高效的處理能力來應(yīng)對他們的工作負(fù)載。
Groq 表示,其技術(shù)在最壞情況下使用的功率約為 GPU 的三分之一,而大多數(shù)工作負(fù)載僅使用十分之一的功率。
在 LLM 工作負(fù)載不斷擴(kuò)展、能源需求持續(xù)增長的背景下,Groq 的高效性能對 GPU 主導(dǎo)的計算領(lǐng)域構(gòu)成了挑戰(zhàn)。
Nvidia 雖然擅長 AI 訓(xùn)練但在推理方面存在局限,Groq 的芯片在推理速度和成本上都有數(shù)倍優(yōu)勢,未來推理市場的份額將從現(xiàn)在的 5% 提升到 90%-95%。
Ross 自信聲稱,到明年底將部署 150 萬個 LPU,占據(jù)全球推理需求半壁江山。
LPU:快,真的快
目前來說,模型訓(xùn)練雖然首選 GPU,但是部署 AI 應(yīng)用程序時,更高的效率和更低的延遲也極為重要。
正如 Groq 第一次闖入大眾視野是因為一個字,「快」,Groq 此次提速繼續(xù)在速度的賽道狂飆。
Groq 承諾可以比競爭對手更快更經(jīng)濟(jì)地完成任務(wù),在一定程度上得益于其語言處理單元(LPU)。
相比 GPU,LPU 減少了管理多個線程的開銷,并避免了核心利用率不足。此外,Groq 的芯片設(shè)計還允許連接多個專用核心,而不會出現(xiàn) GPU 集群中出現(xiàn)的傳統(tǒng)瓶頸。
LPU 的工作原理和 GPU 存在顯著差異,具體來說,LPU 采用的是時序指令集計算機(jī)(Temporal Instruction Set Computer)架構(gòu),這一架構(gòu)的特性就是無需像依賴高帶寬存儲器(HBM)的 GPU 那樣,頻繁地從內(nèi)存中加載數(shù)據(jù)。
LPU 不依賴外部內(nèi)存,其權(quán)重、鍵值緩存(KV Cache)和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲在芯片內(nèi),不僅能夠巧妙規(guī)避 HBM 短缺所帶來的困擾,還能切實有效地削減成本。
與 Nvidia GPU 對高速數(shù)據(jù)傳輸?shù)囊蕾囉兴煌珿roq 的 LPU 在其系統(tǒng)架構(gòu)中并未采用 HBM,而是選用了 SRAM。
由于每塊芯片只配備了 230MB 的 SRAM,沒有任何復(fù)雜的模型能夠僅通過單個芯片運行。值得一提的是,SRAM 的速度相較 GPU 所使用的存儲器約快 20 倍。
鑒于 AI 的推理計算所需的數(shù)據(jù)量相較于模型訓(xùn)練大幅減少,Groq 的 LPU 展現(xiàn)出更為出色的節(jié)能優(yōu)勢。
在執(zhí)行推理任務(wù)時,其從外部內(nèi)存讀取的數(shù)據(jù)量顯著降低,所消耗的電量也明顯低于 GPU。
遺憾的是,英偉達(dá)的 GPU 可以同時用于訓(xùn)練和推理,但 LPU 僅為模型推理設(shè)計。
參考資料:
https://venturebeat.com/ai/groq-releases-blazing-fast-llm-engine-passes-270000-user-mark/
https://the-decoder.com/ai-startup-groq-raises-640-million-to-challenge-nvidias-dominance-in-ai-chips/
本文來自微信公眾號:微信公眾號(ID:null),作者:新智元
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。