近年來,隨著 AI 領(lǐng)域的火爆和對(duì)算力需求的持續(xù)飆升,市面主流獨(dú)立顯卡的算力也都在逐步提升。不過其實(shí)對(duì)于大多數(shù)普通用戶對(duì)日常辦公、生活而言,主力機(jī)其實(shí)仍舊是需要兼顧價(jià)格、便攜性、性能等多方面考量的,一張“核彈級(jí)”的顯卡,聽起來很爽,但實(shí)際部署起來,無論是價(jià)格還是功耗,都難以稱得上“日常”。
不過隨著 AI 助手近年來的突破,越來越多的用戶在日常工作、生活中,都開始大量使用 AI 作為助手。由互聯(lián)網(wǎng)廠商部署在云端的 AI 服務(wù),雖然門檻較低、使用方便,但要么有著訪問次數(shù)等規(guī)則的限制,要么在頻繁訪問的情況下難以保證服務(wù)器的穩(wěn)定。隨著諸如 deepseek 等優(yōu)秀大模型的開源,以及模型蒸餾帶來的算力要求降低,不少 AI 的“高頻用戶”,開始考慮在本地部署一個(gè)專屬于自己的 AI 助理。
本地運(yùn)行大模型這事兒,聽起來好像怎么都不會(huì)和“輕薄本”搭邊兒,不過隨著英特爾 ? 酷睿? Ultra200H 系列處理器的發(fā)布和優(yōu)化,讓這件事兒不僅有了可能,甚至體驗(yàn)還可以相當(dāng)不錯(cuò)。
先來簡(jiǎn)單介紹下這款處理器,其采用混合架構(gòu)設(shè)計(jì),包括 4-6 個(gè) P-Core(性能核)、八個(gè) E-Core(效率核)和兩個(gè) LP E-Core(低功耗效率核),相較前代產(chǎn)品,多線程性能提升了高達(dá) 41%,適合低延遲 AI 工作負(fù)載?。
對(duì)于在大模型的應(yīng)用方面,英特爾 ? 酷睿? Ultra200H 系列處理器的 GPU 集成了 Xe 架構(gòu),AI 算力顯著提升,且其全系配備了獨(dú)立 NPU,NPU 單元可提供高達(dá) 13 TOPS 的算力,通過 CPU+GPU+NPU 的協(xié)同計(jì)算,全平臺(tái)總算力達(dá)到 99 TOPS,并且原生支持英特爾 OpenVINO 工具套件,這也讓本文所說的“在個(gè)人 PC 上本地部署 AI 大模型”成為了可能。
一、理論性能測(cè)試
本文所使用的筆記本電腦配置如下,無獨(dú)立顯卡。
測(cè)試使用的筆記本為 Intel Core Ultra 9 285H 處理器,TDP 45W。
CPU-Z 單核 837.6 分,多核 10917.1 分。
3DMark CPU Profile 分?jǐn)?shù)如圖。
3DMark Time Spy CPU 分?jǐn)?shù) 12395 分,顯卡分?jǐn)?shù) 4153 分。
Time Spy 壓力測(cè)試 20 輪循環(huán)穩(wěn)定度 99.8%。
Cinebench R23 單核 2162 分,多核 22121 分。
二、AI 測(cè)試
1、deepseek 本地部署
最近 deepseek 應(yīng)該已經(jīng)是許多人工作和生活中不可或缺的“小助手”了,因?yàn)樗拇_能夠帶來很多便利。不過另一方面,下面這個(gè)場(chǎng)景大家也一定熟悉又無奈。
畢竟使用者數(shù)量龐大,且仍然在迅速增加,連續(xù)發(fā)問,deepseek 難免就會(huì)出現(xiàn)服務(wù)器繁忙的情況。這也讓 deepseek 原本為我們節(jié)省下的寶貴時(shí)間,難免又被浪費(fèi)掉。
不過很多人可能對(duì) deepseek 了解不多,相比傳統(tǒng) AI 的監(jiān)督學(xué)習(xí)框架,deepseek 采用強(qiáng)化學(xué)習(xí)技術(shù),賦予模型真正的推理能力,顯著提升了數(shù)學(xué)和邏輯測(cè)試中的表現(xiàn),同時(shí)降低 60% 的無效訓(xùn)練,優(yōu)化了計(jì)算效率。
此外,通過 MoE 架構(gòu)實(shí)現(xiàn)模型參數(shù)的動(dòng)態(tài)分配,結(jié)合多層級(jí)注意力機(jī)制(MLA),在提升響應(yīng)速度的同時(shí)降低了算力成本,例如在相同參數(shù)規(guī)模下推理速度提高 40%,最主要的它還是個(gè)開源模型,因此以高性價(jià)比和強(qiáng)大的推理能力迅速吸引全球開發(fā)者,形成技術(shù)社區(qū)裂變效應(yīng)。
這些優(yōu)勢(shì),也讓它區(qū)別于此前的其它大模型,只能借助云端大規(guī)模的服務(wù)器算力進(jìn)行部署,而是完全有希望在個(gè)人 PC 上進(jìn)行本地部署。
本文提供兩種部署方式,分別為 Ollama 客戶端和 Flowy AIPC 助手,前者部署步驟稍多,不過部署完成后的交互界面有多種可選(命令行、瀏覽器插件、獨(dú)立 App 均可),使用相對(duì)靈活;后者則一站式圖形化操作,安裝完成后使用也是在固定的獨(dú)立 App(Flowy AIPC 助手)中,省心不過樣式相對(duì)固定,大家可以查看教程后根據(jù)喜好自行選擇。
1)驅(qū)動(dòng)更新
由于本地大模型的部署需要用到 Arc 核顯的計(jì)算模塊進(jìn)行加速,因此在開始部署前,一定要確保顯卡驅(qū)動(dòng)為最新版本。直接去 intel 官網(wǎng)下載驅(qū)動(dòng)管理軟件就好,這里把鏈接給大家放在下邊了,下載前要確認(rèn)好對(duì)應(yīng)的處理器版本和系統(tǒng)版本。
下載鏈接:
?https://www.intel.cn/content/www/cn/zh/download/785597/intel-arc-iris-xe-graphics-windows.html
下載完成后一路下一步安裝,然后按指示更新到最新即可。
2)Intel 優(yōu)化版 Ollama+IPEX-LLM 部署教程
a) 模型部署
接下來就是下載 Intel 優(yōu)化版 Ollama+IPEX-LLM 文件了,文件不大,可以自行到 GitHub 下載。
下載鏈接:https://github.com/ intel / ipex-llm / releases
后續(xù)版本可能會(huì)有更新,大家安裝時(shí)下載對(duì)應(yīng)的最新版即可。下載后解壓縮,左鍵雙擊運(yùn)行 start-ollama.bat 文件。
運(yùn)行后會(huì)彈出如下命令行窗口:
這里不要關(guān)閉上面的窗口,同時(shí)打開一個(gè)新的命令提示符(CMD)窗口,不會(huì)找 CMD 的可以直接任務(wù)欄搜索。打開后依次運(yùn)行如下兩條命令,注意,第一條命令需要針對(duì)大家電腦上文件保存 Ollama 的位置修改后輸入。
cd C\ 修改為你解壓后文件的位置 ollama run deepseek-r1:7b
如此處小編要輸入的兩條命令就是:
?cd C\Users\IT之家 \Downloads\LANDrop\ollama-0.5.4-ipex-llm-2.2.0b20250220-win ?ollama run deepseek-r1:7b
這里第二條命令中 deepseek-r1:7b 最后的 7b 指的就是所選的模型規(guī)模了,下面附上不同規(guī)模模型的文件大小,個(gè)人電腦建議大家部署 14b 以下的模型,此處小編所使用的電腦顯存為 16GB,選擇 7b 模型,供大家參考。
代碼輸入完成后,就會(huì)開啟下載了,保持網(wǎng)絡(luò)暢通耐心等待就好。
下載完成后,模型的部署就已經(jīng)完成了,此處就已經(jīng)可以在對(duì)話框中輸入問題與 deepseek 進(jìn)行問答了。
可以看到,此處向 deepseek 提出問題,便會(huì)調(diào)用 Arc 核顯的計(jì)算模塊進(jìn)行加速,這也是目前英特爾酷睿 Ultra 處理器的 Arc 核顯在移動(dòng)端 AI 領(lǐng)域獨(dú)有的優(yōu)勢(shì)。
此處的交流也完全不用擔(dān)心“服務(wù)器繁忙”了,即問即答,全部本地運(yùn)行。不過這個(gè)非常極客的交互方式,想必很多人還是不能接受的,別急,我們下一步就聊聊怎么讓它變“美”。
b) 瀏覽器插件安裝
前文說過,基于 Ollama 的大模型有三種交互方式,分別是命令行、瀏覽器插件和獨(dú)立 App,接下來我們就說說后面的兩種方式。使用 Edge 瀏覽器和 Chrome 瀏覽器的小伙伴,可以到擴(kuò)展中找到 Page Assist 這個(gè)插件
找到后點(diǎn)擊獲取,插件會(huì)自動(dòng)下載、安裝。安裝好后瀏覽器右上方會(huì)有彈窗提醒。
打卡安裝好的插件,能夠看到簡(jiǎn)潔的對(duì)話窗口,畫面中間綠點(diǎn)處標(biāo)識(shí)本地模型正常加載。
在頂部選擇好對(duì)話模型以后,就能夠開始正常對(duì)話啦。
這次的問答界面就友好多了,并且基于大家每天都要使用的瀏覽器,方便快捷。提問后從系統(tǒng)資源管理器能夠看到,本地 Arc 核顯的計(jì)算模塊已經(jīng)被調(diào)用進(jìn)行加速。
c) ChatBox AI 客戶端安裝
如果對(duì)瀏覽器的對(duì)話插件滿意,就不用看這一部分了,如果使用的不是上述兩個(gè)瀏覽器,抑或是對(duì)瀏覽器的交互方式不甚喜歡,那么也可以選擇 ChatBox AI 作為交互入口。可以從官網(wǎng)自行下載。
官網(wǎng)地址:https://chatboxai.app/zh#download
文件不大,下載很快,下載完成后一路下一步安裝即可,此處就不贅述了。
安裝完成后打開會(huì)請(qǐng)求選擇配置,此處選下面的“使用自己的 API Key 或本地模型”即可。
選擇 Ollama API。
模型詳細(xì)設(shè)置,不用修改,默認(rèn)就好。
選好后就可以開始對(duì)話啦,提問后同樣可以看到,調(diào)用的依舊是剛才部署的本地模型,依舊會(huì)跑滿 Arc 核顯的計(jì)算模塊進(jìn)行加速。
那么使用 Ollama 的本地模型部署以及三種交互方式到這里就都 OK 了,大家可以根據(jù)自己的喜好和需求自行選擇。
3)Flowy AIPC 助手
前一種方式如果大家覺得麻煩的話,還有一種“一站式”的全圖形化部署方式就是 Flowy AIPC 助手,大家可以根據(jù)需求自行選擇。首先從官網(wǎng)下載 Flowy AIPC 助手。
官網(wǎng)鏈接:https://www.flowyaipc.com
下載完成后一路下一步安裝,首次打開后需要微信掃碼注冊(cè)登陸。登陸后就能進(jìn)入看到主界面了。
在左側(cè)選擇模型市場(chǎng),可以看到提供了多個(gè)模型可選,前文部署好的 deepseek-R1:7b 模型已經(jīng)識(shí)別出來并顯示為已安裝,如果沒有部署過,就可以在這里直接點(diǎn)擊下載。
下載完成后,回到主界面就可以選擇模型開始對(duì)話了,這里需要注意的是,除了本地模型,F(xiàn)lowy AIPC 助手還提供了云端模型可選,選擇的時(shí)候要注意區(qū)分前面的小圖標(biāo),分辨本地模型和云端模型。
下載完成后在 Flowy AIPC 助手中提問,可以看到同樣調(diào)用了 Arc 核顯的計(jì)算模塊進(jìn)行加速。
2、Moonlight 本地部署
Moonlight 作為月之暗面 Moonshot 開源的第一款大模型,擁有 16B 的完整參數(shù)和 3B 的激活參數(shù),也就是說,只需平臺(tái)擁有 3B 對(duì)應(yīng)的算力即可使用 16B 完整性能,降低了大語言模型的使用門檻,可以說是 AI 平權(quán)的重要一步。
1)安裝并部署環(huán)境
部署所需的文件可以到 Github 或 Hugging Face 進(jìn)行下載,鏈接放在下邊了。
Github 倉(cāng)庫(kù):https://github.com/MoonshotAI/Moonlight
Hugging Face 模型庫(kù):https://huggingface.co/moonshotai/Moonlight-16B-A3B
下載完成后,運(yùn)行 Miniforge.exe 安裝。
2)下載模型
安裝完成后,啟動(dòng) Miniforge Prompt 命令行窗口。
啟動(dòng)后運(yùn)行下列代碼:
cd /conda create -n ipex-llm python=3.11 libuvconda activate ipex-llm
運(yùn)行完成后,命令行開頭的(base)會(huì)變成(ipex-llm)
然后運(yùn)行下列代碼:
pip install modelscopemodelscope download --model moonshotai/Moonlight-16B-A3B-Instruct --local_dir /Moonlight-16B-A3B-Instruct
就能看到模型開始下載了
3)配置環(huán)境并轉(zhuǎn)換模型
下載完成后,運(yùn)行下列代碼(在提示 y / n 時(shí)輸入 y 并回車確認(rèn)):
pip install --pre --upgrade ipex-llm[xpu_2.6] --extra-index-urlhttps://download.pytorch.org/whl/xpu -ihttps://pypi.tuna.tsinghua.edu.cn/simplepip install tiktoken blobfile transformers==4.45 trl==0.11 accelerate==0.26.0 -i https://pypi.tuna.tsinghua.edu.cn/simplepip install --pre --upgrade ipex-llmpython convert.py
完成后,將【C:\Moonlight-16B-A3B-Instruct】中的所有?件復(fù)制?【C:\Moonlight-16B-A3B-Instruct-converted】?jī)?nèi),并在提?存在重復(fù)?件時(shí)跳過所有重復(fù)?件。
接下來就可以運(yùn)行啦,首次運(yùn)行時(shí)會(huì)有 10 分鐘左右的暖機(jī),后續(xù)再次運(yùn)行的時(shí)候就不需要等待了。
運(yùn)行下列代碼:
conda activate ipex-llmset SYCL_CACHE_PERSISTENT=1set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1python run_moonlight-16B-A3B-instruct.py
運(yùn)行后提問,可以看到本地 GPU 的計(jì)算單元瞬間跑滿。
3、UL Procyon 測(cè)試
Procyon AI 是由 UL Solutions 推出的一款專業(yè)的基準(zhǔn)測(cè)試軟件,旨在評(píng)估計(jì)算機(jī)或設(shè)備在運(yùn)行 AI 模型時(shí)的性能表現(xiàn)。它通過一系列標(biāo)準(zhǔn)化的測(cè)試,幫助用戶快速了解硬件在處理 AI 任務(wù)時(shí)的效率和資源利用情況。
IT之家這里分別測(cè)試了 AI Text Generation(AI 文本生成基準(zhǔn)測(cè)試)、AI Image Generation(AI 圖像生成基準(zhǔn)測(cè)試)、AI Computer Vision(AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試)三個(gè)項(xiàng)目。
1)AI 文本生成基準(zhǔn)測(cè)試
測(cè)試的四個(gè)項(xiàng)目分別得分 817、848、798、711 分。
2)AI 圖像生成基準(zhǔn)測(cè)試
在 AI 圖像生成基準(zhǔn)測(cè)試中,得分 349 分。
大約 18.6s 可以完成一張圖片的生成。
3)AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試
在 AI 計(jì)算機(jī)視覺基準(zhǔn)測(cè)試中,得分為 140 分。
總結(jié)
通過實(shí)際體驗(yàn)可以看到,英特爾 ? 酷睿? Ultra200H 系列處理器全平臺(tái) 99 TOPS 的總算力,的確讓輕薄本本地部署大模型這件事兒,不僅能夠?qū)崿F(xiàn),更有著相當(dāng)不錯(cuò)的使用體驗(yàn)。誠(chéng)然,目前要部署一個(gè)“滿血”的 deepseek 大模型,仍舊需要輕薄本難以企及的內(nèi)存和算力,不過其實(shí)對(duì)于大多數(shù)辦公、生活場(chǎng)景而言,15B 以下規(guī)模的本地大模型,已經(jīng)能夠滿足許多人的日常需求,在此基礎(chǔ)上,對(duì)普通用戶而言,或許便捷性、性價(jià)比與穩(wěn)定性的平衡,要比一味的追求模型規(guī)模實(shí)在的多。
以上就是本文的全部?jī)?nèi)容啦,如果你耐心讀到這里,希望你也能順利的部署一個(gè)屬于自己的“本地 AI 助理”。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。