Kimi 發(fā)布視覺思考模型 k1：試題拍照給出答題思考全過程

2024/12/16 9:48:10 來源：IT之家作者：汪淼責編：汪淼

評論：

IT之家 12 月 16 日消息，月之暗面 Kimi 今日發(fā)布視覺思考模型 k1。該模型基于強化學習技術打造，原生支持端到端圖像理解和思維鏈技術，并將能力擴展到數學之外的更多基礎科學領域。

月之暗面官方表示，在數學、物理、化學等基礎科學學科的基準能力測試中，初代 k1 模型的表現超過了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

IT之家從月之暗面官方獲悉，Kimi 新模型發(fā)布即上線。k1 視覺思考模型已陸續(xù)上線最新版「Kimi 智能助手」的 Android 和 iPhone 手機 App 以及網頁版 kimi.com。在最新版手機 App 或網頁版 Kimi+ 頁面找到「Kimi 視覺思考版」，即可拍照或傳圖體驗。

「Kimi 視覺思考版」會完整呈現推理思維鏈 CoT，讓用戶不只看到答題結果，也能完整看到模型思索答案的全過程。

從模型訓練的角度看，k1 視覺思考模型的訓練分為兩個階段，先通過預訓練得到基礎模型，再在基礎模型上進行強化學習后訓練。k1 的基礎模型重點優(yōu)化了字符識別能力，在 OCRBench 上得到 903 分的（state-of-the-art）結果，在 MathVista-testmini、MMMU-val 和 DocVQA 基準測試集上分數分別為 69.1、66.7 和 96.9。

月之暗面表示，k1 的強化學習后訓練在數據質量和學習效率方面做了進一步優(yōu)化，在強化學習的規(guī)?；╯caling）上取得了新的突破。

此外，科學的模型能力基準測試方案是大模型行業(yè)面臨的重要挑戰(zhàn)之一。由于市面上缺乏針對基礎科學學科的圖形測試集，Kimi 模型研發(fā)團隊自主構建了一個標準化的測試集 Science Vista，涵蓋不同難度的數理化圖片題目，且從分布上與實際用戶需求較為匹配。該測試集將開放給全行業(yè)，用戶可申請在許可范圍內使用。

在內部測試中，月之暗面也發(fā)現了一些 k1 視覺思考模型存在的局限性，例如在分布外（out-of-distribution）的泛化、在更復雜問題上的成功率、在更多噪聲場景的準確率、多輪問答效果等方面，有很大提升空間。在一些場景和泛化能力上，k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Kimi，月之暗面

Kimi 發(fā)布視覺思考模型 k1：試題拍照給出答題思考全過程

相關文章