設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

科技巨頭打響語音模型之戰(zhàn):亞馬遜用 Claude 升級(jí) Alexa,Cerebras 語音模式快如閃電

新智元 2024/9/10 15:29:12 責(zé)編:問舟

雖然 OpenAI 的「Her」還是期貨,但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語音模型。前有谷歌的 Gemini Live 和蘋果的升級(jí)版 Siri,如今巨頭亞馬遜和新秀 Cerebras 也加入了這場競爭。

繼 OpenAI 在 5 月發(fā)布會(huì)上展示「期貨」GPT-4o 的語音功能后,「AI 語音助手」類的產(chǎn)品又成為了硅谷科技巨頭的必爭之地。緊跟著 OpenAI 開發(fā)布會(huì)的谷歌也馬上宣布 ——Gemini 將推出語音聊天模式 Gemini Live。

8 月,谷歌在 Pixel 9 活動(dòng)上正式發(fā)布了 Gemini Live,取代了原來谷歌助手的產(chǎn)品定位。

類似 GPT-4o,Gemini Live 不僅能實(shí)現(xiàn)隨時(shí)打斷的對話式交流,還有對設(shè)備屏幕的感知能力,可以實(shí)時(shí)解釋用戶的屏幕或視頻信息。

Gemini Live 目前已經(jīng)針對安卓設(shè)備推出,但仍只有英語模式,未來還將登錄 iOS 系統(tǒng)并提供更多語言。

6 月,蘋果就在 WWDC 大會(huì)上展示了如何用 Apple Intelligence 給 2011 年就誕生的 Siri 改頭換面。

與谷歌和 OpenAI 著重強(qiáng)調(diào)的「交流」功能不同,Siri 似乎更專注于語音「助手」的定位。屏幕感知、跨應(yīng)用操作、智能體般的多命令處理,一個(gè)都不少。

比如,動(dòng)動(dòng)嘴便可打開文檔、將筆記移動(dòng)到另一個(gè)文件夾、發(fā)送或刪除電子郵件、在 Apple News 中打開特定文章、發(fā)送網(wǎng)頁鏈接,甚至請求設(shè)備提供文章摘要。

但是,這版更強(qiáng) Siri 的上線還沒有明確期限,所依靠的 Apple Intelligence 也只能在 iPhone 15 Pro 或更新型號(hào)的手機(jī)才能運(yùn)行。

根據(jù)彭博社的報(bào)道,蘋果團(tuán)隊(duì)似乎需要大量時(shí)間來重構(gòu) Siri 的底層,高級(jí)版 Siri 最快也要等到 2025 年,才會(huì)出現(xiàn)在 iOS 18 上。

雖然還未正式上線,但可以看出,GenAI 的這波革新讓蘋果 13 歲的 Siri 煥發(fā)新生。

而提到 Siri,讓人想起和它同代的另一個(gè)語音助手 —— 亞馬遜推出的 Alexa。

亞馬遜改造 Alexa

實(shí)際上,Alexa 的革新計(jì)劃由來已久。早在今年 1 月,Business Insider 就報(bào)道過這個(gè)項(xiàng)目,名為 Remarkable Alexa,它正在內(nèi)外的重重阻力下艱難推進(jìn)。

發(fā)布的日期也是一拖再拖,從最初的 6 月 30 日,到之前決定的 8 月。

8 月 30 日路透社報(bào)道,有知情人士表示,改進(jìn)版的 Alexa 將在 10 月美國假日季前發(fā)布。

該項(xiàng)目在內(nèi)部被稱為「榕樹」(Banyan),將是 Alexa 自 2014 年與 Echo 系列揚(yáng)聲器一起推出后迎來的首次重大改革。

Remarkable Alexa 計(jì)劃向用戶收取 5~10 美元的訂閱費(fèi)用,以抵銷 GenAI 模型的成本。

這部分訂閱不會(huì)包含在每年 139 美元的 Prime 服務(wù)中,但亞馬遜仍將提供免費(fèi)版本的 Classic 語音助手。

Alexa 難掩頹勢

2014 年,亞馬遜首次推出 Alexa 的語音驅(qū)動(dòng)功能,讓當(dāng)時(shí)的消費(fèi)者驚嘆不已,卻落后于最近的 GenAI 浪潮。

根據(jù) Insider Intelligence 的統(tǒng)計(jì),在美國,Google Assistant 今年的用戶數(shù)量預(yù)計(jì)將達(dá)到 8880 萬,其次是 Siri 的 8420 萬。Alexa 的用戶數(shù)量位居第三,約為 7560 萬。

和 Siri 淪為語音計(jì)時(shí)器的境地類似,通過 Echo 音響訪問的 Alexa 也多用于設(shè)置計(jì)時(shí)器、詢問天氣、播放音樂或回答簡單問題等功能。

不僅如此,亞馬遜想要通過 Alexa 提升電商業(yè)務(wù)銷售額的希望也落空了。

正如 Kindle 屏之于電子書商城,健康監(jiān)測服務(wù)之于 Halo 手環(huán),便宜到經(jīng)常低于成本價(jià)的 Echo 音響和免費(fèi)提供的 Alexa,實(shí)際上包含著亞馬遜借硬件打造軟件的產(chǎn)品思路 ——

不求在硬件銷售上獲利,但求從用戶后續(xù)對軟件的使用、數(shù)字內(nèi)容的獲取和平臺(tái)的依賴等中獲取更高毛利的收入。

這種營銷方式最初是借鑒剃須刀巨頭吉列 —— 推出極具價(jià)格優(yōu)勢的剃須刀,但通過售賣補(bǔ)充刀片賺得盆滿缽滿。

最初對 Alexa 的設(shè)想非常美好 —— 用戶通過語音方式詢問購買建議,之后委托 Alexa 直接下單,就能拉動(dòng)亞馬遜的電商銷量。

但隨后他們發(fā)現(xiàn),這個(gè)思路不起作用。主要是因?yàn)橛脩粝矚g「眼見為實(shí)」,僅憑 Alexa 的語音描述很難讓人甘心掏錢網(wǎng)購。

根據(jù)內(nèi)部文件和知情人士的透露,這種不成功的策略讓亞馬遜在 Echos、Kindle 等智能設(shè)備業(yè)務(wù)上虧損了數(shù)百億美元,可以說是貝索斯在位時(shí)為數(shù)不多的巨大誤判。

硬件虧錢、軟件不賺錢,力挺 Alexa 的貝索斯又離開了管理團(tuán)隊(duì),導(dǎo)致裁員的大刀最先落在了 Alexa 團(tuán)隊(duì)的頭上。

Business Insider 跟蹤 LinkedIn 上的帖子后發(fā)現(xiàn),在 2022 年底開始的大裁員中,Alexa 的 AI 系統(tǒng)、自然語言理解和對話能力團(tuán)隊(duì)幾乎是首當(dāng)其沖、受到了最高等級(jí)的影響。

然而,即使 AI 技術(shù)落后、虧損巨大,Alexa 還掌握著一個(gè)關(guān)鍵優(yōu)勢,可以助他們扳回一城 —— 截至 2023 年,已經(jīng)在全球賣出的支持 Alexa 的硬件設(shè)備超過 5 億臺(tái)。

合作 Anthropic 借用 Claude

CNBC 和 Business Insider 在之前的報(bào)道中曾援引知情人士的說法,表示亞馬遜計(jì)劃基于內(nèi)部語言模型 Titan 或 Olympus 升級(jí) Alexa。

然而,或許是內(nèi)部技術(shù)不給力,路透社的最新報(bào)道表示,10 月發(fā)布的 Remarkable Alexa 將由 Anthropic 的 Claude 模型支持,而非自己的基座模型。

亞馬遜和 Anthropic 的合作由來已久。去年 9 月,他們就為 Anthropic 提供了高達(dá) 40 億美元的投資,獲得少量股權(quán)的同時(shí),以 AWS 云服務(wù)交換到了對 Claude 模型的使用。

一些知情人士表示,升級(jí)后的 Remarkable Alexa 可以執(zhí)行更復(fù)雜的任務(wù),例如撰寫簡短的電子郵件、發(fā)送郵件以及從 Uber Eats 訂餐,而且讓用戶無需在對話中重復(fù)召喚「Alexa」。

此外,亞馬遜還計(jì)劃增強(qiáng) Alexa 提供的自動(dòng)化家居功能,可以無線連接到智能設(shè)備,讓用戶進(jìn)行語音控制。

具體而言,Remarkable 的關(guān)鍵功能更新如下:

  • 對話能力增強(qiáng),與用戶進(jìn)行更自然、更有吸引力的對話,并提供與上下文相關(guān)的響應(yīng)

  • 個(gè)性化推薦:根據(jù)用戶喜好和歷史記錄,針對購物、新聞和其他內(nèi)容進(jìn)行定制化推薦

  • 家居自動(dòng)化:Remarkable Alexa 將作為一個(gè)更復(fù)雜的家居自動(dòng)化中心,記住用戶偏好,自動(dòng)執(zhí)行鬧鐘設(shè)置、咖啡機(jī)啟動(dòng)或電視節(jié)目錄制等任務(wù)

  • 復(fù)雜任務(wù)執(zhí)行:用戶可以提出更復(fù)雜的指令,例如訂購食物或起草電子郵件

總而言之,面對谷歌、蘋果等公司來勢洶洶的競爭,Alexa 團(tuán)隊(duì)現(xiàn)在的任務(wù)是,打造一款能夠在新的 GenAI 競爭中脫穎而出的語音交互設(shè)備。

這其中的障礙,一是價(jià)格,二是 AI 安全問題。一位知情人士估計(jì),在 Alexa 中使用 GenAI 的查詢成本為每次 2 美分。有內(nèi)部估計(jì)甚至指出,訂閱費(fèi)用需要定為 20 美元,這也是 ChatGPT 的訂閱價(jià)格。

也有亞馬遜員工表示懷疑,除了已經(jīng)為 Prime 會(huì)員支付 139 美元的用戶,是否還有人愿意每年多掏 60~120 美元,獲得比免費(fèi)版 Alexa 更智能一點(diǎn)的 Remarkable Alexa。

但美國銀行分析師 Justin Post 的分析結(jié)果相當(dāng)樂觀。

根據(jù)他在 6 月的估計(jì),大約有 1 億活躍的 Alexa 用戶,其中 10% 可能會(huì)選擇 Alexa 的付費(fèi)版本。按每月 5 美元的費(fèi)用計(jì)算,這將額外帶來 6 億美元的年銷售額。

AI 安全方面,有開發(fā)人員表示,Alexa 大多出現(xiàn)在客廳或廚房中,這提高了應(yīng)用 GenAI 模型的風(fēng)險(xiǎn)。如果 Alexa 不理解命令或提供不可靠的信息,犯錯(cuò)誤的代價(jià)就會(huì)更高。

Cerebras 語音版成 GPT-4o 平替

想跟上語音模型更新步伐的,除了亞馬遜這種巨頭,還有 Cerebras 這個(gè)新秀。

前幾天剛發(fā)布了號(hào)稱全球最快的 AI 推理架構(gòu) ——Cerebras Inference 的 AI 初創(chuàng)芯片公司 Cerebras,也基于 livekit.io 平臺(tái)構(gòu)建了自己的語音模型。

據(jù)悉,Cerebras Inference 使用了 Cerebras CS-3 系統(tǒng)和 WSE-3 AI 處理器,內(nèi)存帶寬和內(nèi)核數(shù)分別是英偉達(dá) H100 的 7,000 倍和 52 倍。

依托具備如此超高速 AI 推理能力的 Cerebras Inference 之上的 Cerebras 語音對話模型讓人非常期待!

▲ demo 鏈接:https://livekit.io/ kitt

但原始的視頻 demo 鏈接已失效。多虧評論區(qū)熱心網(wǎng)友,提供了另外一個(gè)類似于 Cerebras 語音對話模式的示例。

該對話模擬示例同樣基于 LiveKit,但以 ChatGPT 為基礎(chǔ)模型。

具體來說,它借助 Websocket 使用 LLM 模擬了電話對話,并進(jìn)行了系列優(yōu)化,最終實(shí)現(xiàn)了無縫和快速對話。

不少網(wǎng)友在感嘆其功能強(qiáng)大,開發(fā)便捷的同時(shí),惋惜它比 ChatGPT-4o 上線晚,丟失了很大一部分熱度。

LiveKit 代理是通過語音,視頻和數(shù)據(jù)頻道與最終用戶相互作用的多模式 AI 智能體 Agent 的端到端框架。該框架可以憑借 Python 構(gòu)建智能體。

Agent 框架被設(shè)計(jì)成可構(gòu)建實(shí)時(shí)、可編程、運(yùn)行在服務(wù)器上的框架。它可被用來創(chuàng)建可看到的、聽到、理解的對話和多模態(tài)語音智能體。

該框架包括用于常見工作流程的插件,例如語音活動(dòng)檢測和語音到文本轉(zhuǎn)換。

Agent 與云或自托管 LiveKit 服務(wù)器無縫集成,在本地計(jì)算機(jī)上開發(fā)的 Agent 代碼可以擴(kuò)展以支持成千上萬的并發(fā)會(huì)話,然后將其部署到服務(wù)器中。

倉庫地址:https://github.com/ livekit / agents

Cerebras 語音版一經(jīng)發(fā)布,就引發(fā)了油管上很多博主的關(guān)注和測評。

Antti Luode 通過多次打斷對話的方式,測試了 Cerebras 實(shí)時(shí)語音模式的能力,證實(shí)其能快速有效理解對話并提供可靠信息。

Cerebras 語音版 Q&A 對話集錦

Q:你是如何被開發(fā)的?

A:我是自然語言處理和機(jī)器學(xué)習(xí)算法的組合產(chǎn)物。我可以實(shí)現(xiàn)交互,在用戶打斷我時(shí),也允許無縫轉(zhuǎn)換和自然的對話流程。

Q:你有什么想對 YouTube 觀眾說的嗎?

A:我只是開啟了對話型 AI 技術(shù)套件的新紀(jì)元。諸如我一樣的語音助手未來,需要擁有更復(fù)雜、更人性化的功能。比如能理解細(xì)微上下文間的差距,甚至情緒的變化。

Q:我的最后一個(gè)問題,如何打開啟動(dòng)艙門?

A:短語「打開啟動(dòng)艙門」,是電影《2001 年太空漫游》中的一句著名臺(tái)詞,由 Dave Bowman 在嘗試與飛船計(jì)算機(jī)交互時(shí)說出...

令人驚喜的是,這場跨時(shí)空的虛假對話,預(yù)示著人工智能時(shí)代,超智慧電腦 HAL 9000 的現(xiàn)實(shí)體正一步步向我們走來!

參考資料:

  • https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/

  • https://www.cnbc.com/2024/05/22/amazon-plans-to-give-alexa-an-ai-overhaul-monthly-subscription-price.html

  • https://www.businessinsider.com/amazon-paid-alexa-plus-service-issues-2024-1

  • https://cerebras.vercel.app/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:亞馬遜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知