IT之家 7 月 8 日消息 嘉楠科技正式發(fā)布 AI 芯片勘智 K510。該芯片定位于中高端邊緣推理市場,搭載自主研發(fā) IP 核的升級版本 KPU2.0,采用獨創(chuàng)計算數(shù)據(jù)流與復用方式,在算力提升 3 倍的同時降低芯片功耗。K510 集成新一代圖像處理單元,搭載 3D ISP,支持 TOF 深度攝像頭,以及 2D/3D 降噪、WDR 寬動態(tài)、魚眼矯正和硬件 3A 等功能。在應用方面,K510 支持高清視頻會議、高清航拍和機器人等邊緣側場景。
IT之家獲悉,官方介紹,K510 在總線架構、IP 核心與視頻子系統(tǒng)推出全新設計,相比一代芯片算力提升 3 倍,經(jīng)典視覺算法大幅度優(yōu)化,自研高速 PHY 接口理論帶寬 10GB/s,8 位數(shù)據(jù)壓縮率 50% 以上,極大優(yōu)化了勘智 AI 系列在機器視覺場景的應用性能。
總線結構是一款 SoC 的主要特征。為了解決 SoC 總線地址空間有限以及芯片受單一時鐘的影響,嘉楠科技在 NoC 總線架構中設計了可擴展的地址空間,使每個 IP 核工作在特定的時鐘域。
根據(jù)相關性,K510 將系統(tǒng)時鐘結構劃分成多個時鐘域,從而解決分狀態(tài)時鐘控制問題。把整個系統(tǒng)劃分成多個可支持上下電操作的電源域,從而解決了分區(qū)域控制能耗問題。
在 ISA 方面,K510 沿用 RISC-V 雙核 64 位 CPU 架構,并集成了數(shù)字信號處理器 DSP 來輔助加速 AI 應用。不同的是,嘉楠科技為 DSP 設計了專用的片上存儲,并且在雙核 CPU 與 DSP 之間加入 mailbox 通信模塊,以實現(xiàn)對系統(tǒng)各部分的靈活調(diào)度。
K510 自主研發(fā) IP 核 KPU2.0 融合了嘉楠科技在算法、軟硬件和編譯器的最新設計,集中突破 AI 芯片設計中廣泛存在的“存儲墻”和“性能墻”的問題。
首先是“存儲墻”,計算過程需要把數(shù)據(jù)從存儲器搬運到處理器才能進行運算。而存儲器的吞吐性能往往滯后于處理器的性能增長,直接影響了計算效率的提升。嘉楠科技在 KPU2.0 中采用了全局本地緩存設計,通過 SRAM 陣列滿足神經(jīng)網(wǎng)絡中不同層級對內(nèi)部訪問帶寬和存儲的需求。
其次是“性能墻”,為了提升計算效率,KPU2.0 采用了動態(tài) 3D PE 陣列。第三個維度支持多種方式共享傳遞數(shù)據(jù),并實現(xiàn)多個維度上的計算映射,提高 PE 陣列的利用率。同時也可以動態(tài)開啟或關閉每一個 2D 陣列,并根據(jù)不同層級對帶寬和計算資源的需求進行調(diào)整。
結合動態(tài) 3D PE 計算陣列和靈活的全局本地訪存設計,嘉楠科技提出的計算數(shù)據(jù)流,計算卷積不需要進行 im2col(image to column)數(shù)據(jù)重排,提升計算效率;而通過多級存儲設計,K510 可以增加卷積計算的數(shù)據(jù)復用,從而減少數(shù)據(jù)的讀取次數(shù),降低芯片功耗。
同時,KPU2.0 還搭載了可重構的 SIMD 加速單元,通過創(chuàng)新的 meshnet 網(wǎng)絡可以靈活配置支持各種激活函數(shù)、pooling 和 resize 等算子。
K510 搭載的高速 PHY 接口由嘉楠科技自主研發(fā)。LPDDR4 支持 32 位雙通道,最高頻率 2700MHz,理論最大帶寬 10GB/s。MIPI D-PHY spec v1.2, 支持 4 通道輸入,每通道峰值速率達 2.5Gbps。
與第一代芯片相比,K510 在幀率和外設方面都有大幅優(yōu)化。此外,K510 還支持浮點 BF16 計算,在不適合進行模型量化的場景相比同類產(chǎn)品更具優(yōu)勢。
在外設方面,K510 搭載 MIPI CSI2 和 DVP 接口,可同時支持最多 3 個攝像頭輸入。MIPI CSI 接口支持 1x4 lane 和 2x2 lane 模式,靈活支持各種 MIPI 攝像頭。K510 MIPI 支持 DPHY v1.2 標準,最高速率每 lane 可達 2.5Gbps,支持 RAW, RGB, YUV 等各種流行格式。
K510 內(nèi)部還集成了 3 個圖像處理單元 ISP, 其中一個 ISP 支持 3D 功能,無需軟件參與,直接依靠硬件完成深度數(shù)據(jù)的提取加工,相比軟件處理深度信息方式不但節(jié)省了巨大的 CPU 開銷,性能上也會有很大提升。
為進一步提高芯片對算法模型的適配,嘉楠科技在 K510 的編譯器和軟件上聯(lián)合優(yōu)化帶寬需求,對算法進行量化壓縮。
K510 在設計上針對中間層數(shù)據(jù)和權重的分布特性采用不同的壓縮算法。針對中間層計算數(shù)據(jù),利用相鄰數(shù)據(jù)的相關性進行無損壓縮,即便 8 位數(shù)據(jù)的平均壓縮率也能達到 50% 以上,并且基本不損失精度;對權重數(shù)據(jù)則采用稀疏壓縮,在網(wǎng)絡進行稀疏訓練的情況下,壓縮率也可以到 50% 以上。
在軟件方面,K510 支持豐富的網(wǎng)絡模型算子,包括常見的 CNN、RNN 和各類向量計算和數(shù)據(jù)處理操作。支持裸機、嵌入式 RTOS 和 Linux,并且移植了 OpenCV Python Numpy。同時,K510 支持 TensorFlow、PyTorch、ONNX 和 TVM 等主流深度學習框架,兼容性更強。
得益于架構優(yōu)化和高清 MIPI 的強大配置,K510 支持 2~3 路 2K 顯示和 VPU 圖像拼接,以及業(yè)內(nèi)最前沿的 TOF VSLAM 視覺導航技術,快速實現(xiàn)對障礙物的測距和避障,可用于無人機航拍、高清視頻會議和機器人等多個場景。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。