設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Kimi 多模態(tài)圖片理解模型 API 發(fā)布,1M tokens 定價 12 元起

2025/1/15 12:24:29 來源:IT之家 作者:汪淼 責(zé)編:汪淼
感謝IT之家網(wǎng)友 Skyraver、動感超人233 的線索投遞!

IT之家 1 月 15 日消息,月之暗面今日發(fā)布了 Kimi 多模態(tài)圖片理解模型 API,全新多模態(tài)圖片理解模型 moonshot-v1-vision-preview(以下簡稱“Vision 模型”)完善了 moonshot-v1 模型系列的多模態(tài)能力。

模型能力說明

圖像識別

Vision 模型具備圖像識別能力,能夠識別出圖像中的復(fù)雜細節(jié)和細微的差別,無論是食物還是動物,能夠區(qū)分出相似但又不相同的對象。

下圖示例中,官方拼湊了 16 張相似的人眼較難區(qū)分的藍莓松餅和吉娃娃圖片,由 Vision 模型來識別并按順序標(biāo)記圖片類型,無論是藍莓松餅還是吉娃娃,模型都能精確地區(qū)分和識別

圖片

文字識別和理解

Vision 模型具備高級圖像識別能力,在 OCR 文字識別和圖像理解場景中,比普通的文件掃描和 OCR 識別軟件更加準(zhǔn)確,例如收據(jù)單 / 快遞單等潦草的手寫內(nèi)容都可以準(zhǔn)確識別。

圖片

以這張《某學(xué)生期末考試成績》柱狀圖為例,官方讓模型提取分析考試成績,并從美學(xué)風(fēng)格的角度分析一下該柱狀圖。Vision 模型也能夠精準(zhǔn)地識別出柱狀圖中每個科目名稱對應(yīng)的分數(shù)數(shù)值并做分數(shù)對比,同時可以識別出該柱狀圖的樣式格式和顏色等。

圖片

模型計費

Vision 模型實行按量計費方式,單張圖片按 1024 tokens 合并計算在 Input 請求的 tokens 用量中,模型調(diào)用的價格根據(jù)選擇的模型而不同,IT之家附具體區(qū)分如下:

模型計費單位價格
moonshot-v1-8k-vision-preview1M tokens¥12.00
moonshot-v1-32k-vision-preview1M tokens¥24.00
moonshot-v1-128k-vision-preview1M tokens¥60.00

模型限制說明

Vision 視覺模型支持的特性包括:

    • 多輪對話

    • 流式輸出

    • 工具調(diào)用

    • JSON Mode

    • Partial Mode

以下功能暫未支持或部分支持:

    • 聯(lián)網(wǎng)搜索:不支持

    • Context Caching:不支持創(chuàng)建帶有圖片內(nèi)容的 Context Cache,但支持使用已經(jīng)創(chuàng)建成功的 Cache 調(diào)用 Vision 模型

    • URL 格式的圖片:不支持,目前僅支持使用 base64 編碼的圖片內(nèi)容

其他平臺更新

  • 支持組織項目管理功能

  • 支持一個企業(yè)實體認證多賬號

  • 增加 File 文件資源管理功能:直觀管理查看文件資源

  • 優(yōu)化資源管理列表鼠標(biāo)懸浮復(fù)制

  • Context Caching 功能已放開給全量用戶

  • Cache 續(xù)期不再收取創(chuàng)建的費用

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Kimi,多模態(tài)圖片模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知