設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 向部分付費訂閱用戶開放 GPT-4o 語音模式,可提供更自然實時對話

2024/7/31 6:54:40 來源:IT之家 作者:清源 責(zé)編:清源

IT之家 7 月 31 日消息,當(dāng)?shù)貢r間 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用戶開放 GPT-4o 的語音模式(IT之家注:Alpha 版本),并將于今年秋季逐步推廣至所有 ChatGPT Plus 訂閱用戶。

今年 5 月,OpenAI 首席技術(shù)官米拉?穆拉蒂(Mira Murati)在演講中提到:

在 GPT-4o 中,我們訓(xùn)練了跨文本、視覺和音頻的端到端全新統(tǒng)一模型,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。

由于 GPT-4o 是我們第一個結(jié)合所有這些模式的模型,因此我們在探索該模型的功能及其局限性方面仍處于起步階段。

OpenAI 公司原計劃今年 6 月底邀請一小部分 ChatGPT Plus 用戶測試 GPT-4o 語音模式,但官方在 6 月宣布推遲,表示需要更多時間打磨該模型,提高該模型檢測和拒絕某些內(nèi)容的能力。

根據(jù)此前曝光的信息,GPT-3.5 模型的平均語音反饋延遲為 2.8 秒,而 GPT-4 模型的延遲為 5.4 秒,因此在語音交流方面不太優(yōu)秀,而即將推出的 GPT-4o 可以極大地縮短延遲時間,近乎無縫對話。

GPT-4o 語音模式具有快速反應(yīng)聲音堪比真人等特征,OpenAI 更稱 GPT-4o 語音模式可以感知語音中的情感語調(diào),包括悲傷、興奮或歌唱。

OpenAI 發(fā)言人林賽?麥卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的聲音,包括個人和公眾人物的聲音,并且會阻止與預(yù)設(shè)聲音不同的輸出?!?/p>

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,ChatGPTGPT4o

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知