設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 升級 Whisper 語音轉(zhuǎn)錄 AI 模型,不犧牲質(zhì)量速度快 8 倍

2024/10/3 11:44:37 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 10 月 3 日消息,OpenAI 在 10 月 1 日舉辦的 DevDay 活動日中,宣布推出了 Whisper large-v3-turbo 語音轉(zhuǎn)錄模型,共有 8.09 億參數(shù),在質(zhì)量幾乎沒有下降的情況下,速度比 large-v3 快 8 倍。

Whisper large-v3-turbo 語音轉(zhuǎn)錄模型是 large-v3 的優(yōu)化版本,并且只有 4 層解碼器層(Decoder Layers),作為對比 large-v3 共有 32 層。

Whisper large-v3-turbo 語音轉(zhuǎn)錄模型共有 8.09 億參數(shù),比 7.69 億參數(shù)的 medium 模型稍大,不過比 15.5 億參數(shù)的 large 模型小很多。

OpenAI 表示 Whisper large-v3-turbo 的速度比 large 模型快 8 倍,并且所需的 VRAM 為 6GB,而 large 模型需要 10GB。

Whisper large-v3-turbo 語音轉(zhuǎn)錄模型大小為 1.6GB,OpenAI 繼續(xù)根據(jù) MIT 許可證提供 Whisper(包括代碼和模型權(quán)重)。

IT之家援引 Awni Hannun 測試結(jié)果,在 M2 Ultra 上,將 12 分鐘的內(nèi)容轉(zhuǎn)錄為 14 秒。

GitHub:https://github.com/openai/whisper/discussions/2363

模型下載:https://huggingface.co/openai/whisper-large-v3-turbo

在線體驗(yàn):https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAIAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知