【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

2025/3/31 21:17:26 來源：IT之家作者：霖沨責(zé)編：霖沨

評(píng)論：

近年來，隨著 AI 領(lǐng)域的火爆和對(duì)算力需求的持續(xù)飆升，市面主流獨(dú)立顯卡的算力也都在逐步提升。不過其實(shí)對(duì)于大多數(shù)普通用戶對(duì)日常辦公、生活而言，主力機(jī)其實(shí)仍舊是需要兼顧價(jià)格、便攜性、性能等多方面考量的，一張“核彈級(jí)”的顯卡，聽起來很爽，但實(shí)際部署起來，無論是價(jià)格還是功耗，都難以稱得上“日常”。

不過隨著 AI 助手近年來的突破，越來越多的用戶在日常工作、生活中，都開始大量使用 AI 作為助手。由互聯(lián)網(wǎng)廠商部署在云端的 AI 服務(wù)，雖然門檻較低、使用方便，但要么有著訪問次數(shù)等規(guī)則的限制，要么在頻繁訪問的情況下難以保證服務(wù)器的穩(wěn)定。隨著諸如 deepseek 等優(yōu)秀大模型的開源，以及模型蒸餾帶來的算力要求降低，不少 AI 的“高頻用戶”，開始考慮在本地部署一個(gè)專屬于自己的 AI 助理。

本地運(yùn)行大模型這事兒，聽起來好像怎么都不會(huì)和“輕薄本”搭邊兒，不過隨著英特爾 ? 酷睿? Ultra200H 系列處理器的發(fā)布和優(yōu)化，讓這件事兒不僅有了可能，甚至體驗(yàn)還可以相當(dāng)不錯(cuò)。

先來簡(jiǎn)單介紹下這款處理器，其采用混合架構(gòu)設(shè)計(jì)，包括 4-6 個(gè) P-Core（性能核）、八個(gè) E-Core（效率核）和兩個(gè) LP E-Core（低功耗效率核），相較前代產(chǎn)品，多線程性能提升了高達(dá) 41%，適合低延遲 AI 工作負(fù)載?。

圖形用戶界面AI 生成的內(nèi)容可能不正確。

對(duì)于在大模型的應(yīng)用方面，英特爾 ? 酷睿? Ultra200H 系列處理器的 GPU 集成了 Xe 架構(gòu)，AI 算力顯著提升，且其全系配備了獨(dú)立 NPU，NPU 單元可提供高達(dá) 13 TOPS 的算力，通過 CPU+GPU+NPU 的協(xié)同計(jì)算，全平臺(tái)總算力達(dá)到 99 TOPS，并且原生支持英特爾 OpenVINO 工具套件，這也讓本文所說的“在個(gè)人 PC 上本地部署 AI 大模型”成為了可能。

一、理論性能測(cè)試

本文所使用的筆記本電腦配置如下，無獨(dú)立顯卡。

圖形用戶界面, 文本, 應(yīng)用程序AI 生成的內(nèi)容可能不正確。

測(cè)試使用的筆記本為 Intel Core Ultra 9 285H 處理器，TDP 45W。

圖形用戶界面, 應(yīng)用程序AI 生成的內(nèi)容可能不正確。

CPU-Z 單核 837.6 分，多核 10917.1 分。

圖形用戶界面, 應(yīng)用程序AI 生成的內(nèi)容可能不正確。

3DMark CPU Profile 分?jǐn)?shù)如圖。

圖形用戶界面AI 生成的內(nèi)容可能不正確。

3DMark Time Spy CPU 分?jǐn)?shù) 12395 分，顯卡分?jǐn)?shù) 4153 分。

圖形用戶界面, 應(yīng)用程序AI 生成的內(nèi)容可能不正確。

Time Spy 壓力測(cè)試 20 輪循環(huán)穩(wěn)定度 99.8%。

Cinebench R23 單核 2162 分，多核 22121 分。

電腦屏幕截圖AI 生成的內(nèi)容可能不正確。

二、AI 測(cè)試

1、deepseek 本地部署

最近 deepseek 應(yīng)該已經(jīng)是許多人工作和生活中不可或缺的“小助手”了，因?yàn)樗拇_能夠帶來很多便利。不過另一方面，下面這個(gè)場(chǎng)景大家也一定熟悉又無奈。

畢竟使用者數(shù)量龐大，且仍然在迅速增加，連續(xù)發(fā)問，deepseek 難免就會(huì)出現(xiàn)服務(wù)器繁忙的情況。這也讓 deepseek 原本為我們節(jié)省下的寶貴時(shí)間，難免又被浪費(fèi)掉。

不過很多人可能對(duì) deepseek 了解不多，相比傳統(tǒng) AI 的監(jiān)督學(xué)習(xí)框架，deepseek 采用強(qiáng)化學(xué)習(xí)技術(shù)，賦予模型真正的推理能力，顯著提升了數(shù)學(xué)和邏輯測(cè)試中的表現(xiàn)，同時(shí)降低 60% 的無效訓(xùn)練，優(yōu)化了計(jì)算效率。

圖形用戶界面, 文本, 應(yīng)用程序, 聊天或短信AI 生成的內(nèi)容可能不正確。

此外，通過 MoE 架構(gòu)實(shí)現(xiàn)模型參數(shù)的動(dòng)態(tài)分配，結(jié)合多層級(jí)注意力機(jī)制（MLA），在提升響應(yīng)速度的同時(shí)降低了算力成本，例如在相同參數(shù)規(guī)模下推理速度提高 40%，最主要的它還是個(gè)開源模型，因此以高性價(jià)比和強(qiáng)大的推理能力迅速吸引全球開發(fā)者，形成技術(shù)社區(qū)裂變效應(yīng)。

表格AI 生成的內(nèi)容可能不正確。

這些優(yōu)勢(shì)，也讓它區(qū)別于此前的其它大模型，只能借助云端大規(guī)模的服務(wù)器算力進(jìn)行部署，而是完全有希望在個(gè)人 PC 上進(jìn)行本地部署。

本文提供兩種部署方式，分別為 Ollama 客戶端和 Flowy AIPC 助手，前者部署步驟稍多，不過部署完成后的交互界面有多種可選（命令行、瀏覽器插件、獨(dú)立 App 均可），使用相對(duì)靈活；后者則一站式圖形化操作，安裝完成后使用也是在固定的獨(dú)立 App（Flowy AIPC 助手）中，省心不過樣式相對(duì)固定，大家可以查看教程后根據(jù)喜好自行選擇。

1）驅(qū)動(dòng)更新

由于本地大模型的部署需要用到 Arc 核顯的計(jì)算模塊進(jìn)行加速，因此在開始部署前，一定要確保顯卡驅(qū)動(dòng)為最新版本。直接去 intel 官網(wǎng)下載驅(qū)動(dòng)管理軟件就好，這里把鏈接給大家放在下邊了，下載前要確認(rèn)好對(duì)應(yīng)的處理器版本和系統(tǒng)版本。

下載鏈接：

?https://www.intel.cn/content/www/cn/zh/download/785597/intel-arc-iris-xe-graphics-windows.html

下載完成后一路下一步安裝，然后按指示更新到最新即可。

2）Intel 優(yōu)化版 Ollama+IPEX-LLM 部署教程

a) 模型部署

接下來就是下載 Intel 優(yōu)化版 Ollama+IPEX-LLM 文件了，文件不大，可以自行到 GitHub 下載。

下載鏈接：https://github.com/ intel / ipex-llm / releases

后續(xù)版本可能會(huì)有更新，大家安裝時(shí)下載對(duì)應(yīng)的最新版即可。下載后解壓縮，左鍵雙擊運(yùn)行 start-ollama.bat 文件。

運(yùn)行后會(huì)彈出如下命令行窗口：

這里不要關(guān)閉上面的窗口，同時(shí)打開一個(gè)新的命令提示符（CMD）窗口，不會(huì)找 CMD 的可以直接任務(wù)欄搜索。打開后依次運(yùn)行如下兩條命令，注意，第一條命令需要針對(duì)大家電腦上文件保存 Ollama 的位置修改后輸入。

cd C\ 修改為你解壓后文件的位置
ollama run deepseek-r1:7b

如此處小編要輸入的兩條命令就是：

?cd C\Users\IT之家 \Downloads\LANDrop\ollama-0.5.4-ipex-llm-2.2.0b20250220-win
?ollama run deepseek-r1:7b

這里第二條命令中 deepseek-r1:7b 最后的 7b 指的就是所選的模型規(guī)模了，下面附上不同規(guī)模模型的文件大小，個(gè)人電腦建議大家部署 14b 以下的模型，此處小編所使用的電腦顯存為 16GB，選擇 7b 模型，供大家參考。

代碼輸入完成后，就會(huì)開啟下載了，保持網(wǎng)絡(luò)暢通耐心等待就好。

下載完成后，模型的部署就已經(jīng)完成了，此處就已經(jīng)可以在對(duì)話框中輸入問題與 deepseek 進(jìn)行問答了。

圖形用戶界面, 文本AI 生成的內(nèi)容可能不正確。

可以看到，此處向 deepseek 提出問題，便會(huì)調(diào)用 Arc 核顯的計(jì)算模塊進(jìn)行加速，這也是目前英特爾酷睿 Ultra 處理器的 Arc 核顯在移動(dòng)端 AI 領(lǐng)域獨(dú)有的優(yōu)勢(shì)。

此處的交流也完全不用擔(dān)心“服務(wù)器繁忙”了，即問即答，全部本地運(yùn)行。不過這個(gè)非常極客的交互方式，想必很多人還是不能接受的，別急，我們下一步就聊聊怎么讓它變“美”。

b) 瀏覽器插件安裝

前文說過，基于 Ollama 的大模型有三種交互方式，分別是命令行、瀏覽器插件和獨(dú)立 App，接下來我們就說說后面的兩種方式。使用 Edge 瀏覽器和 Chrome 瀏覽器的小伙伴，可以到擴(kuò)展中找到 Page Assist 這個(gè)插件

圖形用戶界面, 應(yīng)用程序, TeamsAI 生成的內(nèi)容可能不正確。

找到后點(diǎn)擊獲取，插件會(huì)自動(dòng)下載、安裝。安裝好后瀏覽器右上方會(huì)有彈窗提醒。

打卡安裝好的插件，能夠看到簡(jiǎn)潔的對(duì)話窗口，畫面中間綠點(diǎn)處標(biāo)識(shí)本地模型正常加載。

在頂部選擇好對(duì)話模型以后，就能夠開始正常對(duì)話啦。

這次的問答界面就友好多了，并且基于大家每天都要使用的瀏覽器，方便快捷。提問后從系統(tǒng)資源管理器能夠看到，本地 Arc 核顯的計(jì)算模塊已經(jīng)被調(diào)用進(jìn)行加速。

c) ChatBox AI 客戶端安裝

如果對(duì)瀏覽器的對(duì)話插件滿意，就不用看這一部分了，如果使用的不是上述兩個(gè)瀏覽器，抑或是對(duì)瀏覽器的交互方式不甚喜歡，那么也可以選擇 ChatBox AI 作為交互入口。可以從官網(wǎng)自行下載。

官網(wǎng)地址：https://chatboxai.app/zh#download

文件不大，下載很快，下載完成后一路下一步安裝即可，此處就不贅述了。

安裝完成后打開會(huì)請(qǐng)求選擇配置，此處選下面的“使用自己的 API Key 或本地模型”即可。

選擇 Ollama API。

模型詳細(xì)設(shè)置，不用修改，默認(rèn)就好。

選好后就可以開始對(duì)話啦，提問后同樣可以看到，調(diào)用的依舊是剛才部署的本地模型，依舊會(huì)跑滿 Arc 核顯的計(jì)算模塊進(jìn)行加速。

那么使用 Ollama 的本地模型部署以及三種交互方式到這里就都 OK 了，大家可以根據(jù)自己的喜好和需求自行選擇。

3）Flowy AIPC 助手

前一種方式如果大家覺得麻煩的話，還有一種“一站式”的全圖形化部署方式就是 Flowy AIPC 助手，大家可以根據(jù)需求自行選擇。首先從官網(wǎng)下載 Flowy AIPC 助手。

官網(wǎng)鏈接：https://www.flowyaipc.com

下載完成后一路下一步安裝，首次打開后需要微信掃碼注冊(cè)登陸。登陸后就能進(jìn)入看到主界面了。

在左側(cè)選擇模型市場(chǎng)，可以看到提供了多個(gè)模型可選，前文部署好的 deepseek-R1:7b 模型已經(jīng)識(shí)別出來并顯示為已安裝，如果沒有部署過，就可以在這里直接點(diǎn)擊下載。

下載完成后，回到主界面就可以選擇模型開始對(duì)話了，這里需要注意的是，除了本地模型，F(xiàn)lowy AIPC 助手還提供了云端模型可選，選擇的時(shí)候要注意區(qū)分前面的小圖標(biāo)，分辨本地模型和云端模型。

下載完成后在 Flowy AIPC 助手中提問，可以看到同樣調(diào)用了 Arc 核顯的計(jì)算模塊進(jìn)行加速。

2、Moonlight 本地部署

Moonlight 作為月之暗面 Moonshot 開源的第一款大模型，擁有 16B 的完整參數(shù)和 3B 的激活參數(shù)，也就是說，只需平臺(tái)擁有 3B 對(duì)應(yīng)的算力即可使用 16B 完整性能，降低了大語言模型的使用門檻，可以說是 AI 平權(quán)的重要一步。

1）安裝并部署環(huán)境

部署所需的文件可以到 Github 或 Hugging Face 進(jìn)行下載，鏈接放在下邊了。

Github 倉(cāng)庫(kù)：https://github.com/MoonshotAI/Moonlight

Hugging Face 模型庫(kù)：https://huggingface.co/moonshotai/Moonlight-16B-A3B

圖形用戶界面, 應(yīng)用程序, TeamsAI 生成的內(nèi)容可能不正確。

下載完成后，運(yùn)行 Miniforge.exe 安裝。

2）下載模型

安裝完成后，啟動(dòng) Miniforge Prompt 命令行窗口。

啟動(dòng)后運(yùn)行下列代碼：

cd /conda create -n ipex-llm python=3.11 libuvconda activate ipex-llm

運(yùn)行完成后，命令行開頭的（base）會(huì)變成（ipex-llm）

然后運(yùn)行下列代碼：

pip install modelscopemodelscope download --model moonshotai/Moonlight-16B-A3B-Instruct --local_dir /Moonlight-16B-A3B-Instruct

就能看到模型開始下載了

3）配置環(huán)境并轉(zhuǎn)換模型

下載完成后，運(yùn)行下列代碼（在提示 y / n 時(shí)輸入 y 并回車確認(rèn)）：

pip install --pre --upgrade ipex-llm[xpu_2.6] --extra-index-urlhttps://download.pytorch.org/whl/xpu -ihttps://pypi.tuna.tsinghua.edu.cn/simplepip install tiktoken blobfile transformers==4.45 trl==0.11 accelerate==0.26.0 -i https://pypi.tuna.tsinghua.edu.cn/simplepip install --pre --upgrade ipex-llmpython convert.py

完成后，將【C:\Moonlight-16B-A3B-Instruct】中的所有?件復(fù)制?【C:\Moonlight-16B-A3B-Instruct-converted】?jī)?nèi)，并在提?存在重復(fù)?件時(shí)跳過所有重復(fù)?件。

接下來就可以運(yùn)行啦，首次運(yùn)行時(shí)會(huì)有 10 分鐘左右的暖機(jī)，后續(xù)再次運(yùn)行的時(shí)候就不需要等待了。

文本AI 生成的內(nèi)容可能不正確。

運(yùn)行下列代碼：

conda activate ipex-llmset SYCL_CACHE_PERSISTENT=1set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1python run_moonlight-16B-A3B-instruct.py

運(yùn)行后提問，可以看到本地 GPU 的計(jì)算單元瞬間跑滿。

3、UL Procyon 測(cè)試

Procyon AI 是由 UL Solutions 推出的一款專業(yè)的基準(zhǔn)測(cè)試軟件，旨在評(píng)估計(jì)算機(jī)或設(shè)備在運(yùn)行 AI 模型時(shí)的性能表現(xiàn)。它通過一系列標(biāo)準(zhǔn)化的測(cè)試，幫助用戶快速了解硬件在處理 AI 任務(wù)時(shí)的效率和資源利用情況。

IT之家這里分別測(cè)試了 AI Text Generation（AI 文本生成基準(zhǔn)測(cè)試）、AI Image Generation（AI 圖像生成基準(zhǔn)測(cè)試）、AI Computer Vision（AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試）三個(gè)項(xiàng)目。

1）AI 文本生成基準(zhǔn)測(cè)試

測(cè)試的四個(gè)項(xiàng)目分別得分 817、848、798、711 分。

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

2）AI 圖像生成基準(zhǔn)測(cè)試

在 AI 圖像生成基準(zhǔn)測(cè)試中，得分 349 分。

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

大約 18.6s 可以完成一張圖片的生成。

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

3）AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試

在 AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試中，得分為 140 分。

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

總結(jié)

通過實(shí)際體驗(yàn)可以看到，英特爾 ? 酷睿? Ultra200H 系列處理器全平臺(tái) 99 TOPS 的總算力，的確讓輕薄本本地部署大模型這件事兒，不僅能夠?qū)崿F(xiàn)，更有著相當(dāng)不錯(cuò)的使用體驗(yàn)。誠(chéng)然，目前要部署一個(gè)“滿血”的 deepseek 大模型，仍舊需要輕薄本難以企及的內(nèi)存和算力，不過其實(shí)對(duì)于大多數(shù)辦公、生活場(chǎng)景而言，15B 以下規(guī)模的本地大模型，已經(jīng)能夠滿足許多人的日常需求，在此基礎(chǔ)上，對(duì)普通用戶而言，或許便捷性、性價(jià)比與穩(wěn)定性的平衡，要比一味的追求模型規(guī)模實(shí)在的多。

以上就是本文的全部?jī)?nèi)容啦，如果你耐心讀到這里，希望你也能順利的部署一個(gè)屬于自己的“本地 AI 助理”。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

打赏支持

暂时无人打赏

下載IT之家APP，簽到賺金幣兌豪禮

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

一、理論性能測(cè)試

二、AI 測(cè)試

1、deepseek 本地部署

2、Moonlight 本地部署

3、UL Procyon 測(cè)試

總結(jié)

【IT之家評(píng)測(cè)室】沒有獨(dú)顯也能部署本地大模型？英特爾酷睿 Ultra200H 原來這么強(qiáng)

二、AI 測(cè)試

1、deepseek 本地部署

2、Moonlight 本地部署