芯東西(公眾號:aichip001)
作者 |? 程茜
編輯 | ?漠影
AI PC正在GPGPU芯片之上迸發出新的生命力!
智東西3月14日報道,在一年一度的行業大會世界移動通信大會上,PC、手機、機器人等各路終端設備無不與AI深度綁定。
作為全球AI PC龍頭的聯想亮出了自家系列AI PC解決方案,其產品背后的AzureBlade M.2加速卡正是支持其AI PC體驗的關鍵動力。AzureBlade M.2加速卡就來自國內清華系GPGPU創企珠海芯動力科技。芯動力成為聯想在筆記本電腦dNPU方案領域的首位合作伙伴。
在大模型時代,邊緣設備迎來了新的機遇期,春節爆火的DeepSeek更是加速了這一進程,以AI PC、AI手機為代表的諸多硬件連番炸場。
其背后的原因是,大模型對數據處理的實時性、隱私性要求不斷提高,邊緣設備能夠在靠近數據源的地方進行數據處理;邊緣設備可承擔部分數據預處理和簡單推理任務,拓寬應用場景邊界;DeepSeek憑借算法優化進一步加速了大模型在邊緣設備上的部署與應用進程,讓大模型以更低資源消耗在邊緣設備高效運行。
這股邊緣AI爆發的熱潮宛如一把雙刃劍,在為行業帶來新契機的同時,也向AI芯片企業拋出了一連串棘手難題,高性能、低延時、低功耗、兼容多種操作系統……聯想與芯動力的合作正是這道難題的最新解法。
邊緣AI時代爆發前夜,M.2加速卡的獨特優勢是什么?其為何能入局AI PC龍頭企業聯想的產品布局中?我們試圖通過拆解芯動力的產品,找到這些問題的答案。
一、DeepSeek引爆邊緣AI,芯片廠商機遇挑戰并存
在當下,端側設備部署大模型的風潮洶涌。然而,這股熱潮背后橫亙著一個核心命題:端側設備以及AI芯片是否足以承載大模型所需的性能。
因此,端側AI爆發呈現出兩大顯著趨勢。
一方面,端側設備部署大模型這把火燒的更旺了。
此前,受限于硬件性能和模型技術,端側部署的模型諸多無法處理復雜任務,這也導致端側AI應用場景有限,但更靠近用戶的端側設備在保護用戶數據隱私方面、實時反饋方面更有優勢。
DeepSeek以開源和低成本的特性極大拉低了大模型部署的門檻,使得端側設備部署更高性能大模型的可能性增強。同時,基于DeepSeek的算法優化策略,使得支持長文本處理等復雜任務的高性能大模型與端側設備適配,開發者還可以通過蒸餾優化等生成特定場景性能更強的小模型。對于中小企業或者個人開發者而言,能更快速相關端側AI應用。
隨之而來的是,AI手機、AI PC到AI眼鏡等加速涌現,端側AI爆發已成共識。

▲華為、OPPO、榮耀、vivo、小米在手機端部署大模型
然而另一方面,端側AI的爆發,于AI芯片廠商既是蓬勃發展的難得機遇,也帶來了諸多嚴峻挑戰 。
AI在手機、PC、智能穿戴等諸多端側設備中應用不斷拓展,使得AI芯片需求大幅增加,并且由于其設備形態、應用場景多元化,不同場景對芯片需求各異,為芯片廠商提供了更多差異化競爭的機會。
但更為關鍵的是,AI芯片的性能要符合當下端側設備的發展趨勢,主要集中在性能、功耗、成本、可擴展性上。
包括端側設備對功耗要求極高,需要芯片兼顧低功耗、高性能,且當下算法和模型仍在不斷更新迭代,芯片廠商需要確保芯片高效適配新的模型和算法。此外,端側設備的廠商對成本更為敏感,芯片廠商需要降低芯片的制造成本、研發成本等,以提高產品的市場競爭力。
以AI PC為例,用戶基于其需要處理的生成任務各不相同,文字、圖片、視頻生成等應用盡有,因此對于計算資源和處理能力的要求也有區別。

▲聯想AI PC個人AI助力小天部分功能(圖源:聯想官方)
這種情況下,以通用計算為核心的計算架構在處理生成任務時可能面臨性能有限、效率低下、能耗高、靈活性不足等瓶頸,因此從以通用計算為核心的計算架構向更加高性能的異構AI計算架構升級,成為當下增強端側設備生成式AI體驗的重要路徑。
通過讓CPU、GPU、NPU等不同計算單元“各司其職”、協同運作,構建高性能異構AI計算架構,便能依據各類生成任務的特性,實現任務的合理分配 。
此外,對于AI芯片而言,在滿足性能與功耗等嚴苛要求的同時,還需提供更高的性價比,才能吸引PC廠商在設備中選用,同時也讓終端用戶更樂于接受搭載此類芯片的產品。
在這個關鍵節點,以AI PC為代表的端側設備正在呼喚相匹配的AI芯片,加速大模型在端側的繁榮。
二、小體積、高性能、低功耗、高性價比,M.2加速卡成AI PC致勝利器
就在2025世界移動通信大會(MWC 2025)上,我們看到了AI PC龍頭聯想和國產AI芯片廠商芯動力聯手的成果。

聯想全新升級的AI PC系列產品亮相,而支持其AI體驗的關鍵之一,正是芯動力基于可重構并行處理器RPP打造的AzureBlade M.2加速卡。

聯想相關負責人在MWC上介紹,聯想AI PC實現了將大模型放到本地端推理的突破,盡管傳統本地推理大都采用集成(CPU+iNPU)或獨立顯卡GPU,但經過多重對比發現,在運行大語言模型時,通常依賴GPU進行加速,iNPU只有在特定的場景中才能被調用。聯想AI PC最終采用了芯動力AzureBlade M.2加速卡,并命名為dNPU。M.2加速卡在進行大模型推理時具有高效率、低功耗性能,同時可進一步釋放顯卡能力,在提高效率的同時更節約能耗。

▲AI NOW不做大模型推理:右側GPU usage和dNPU占用率均為0%

▲AI NOW進行大模型推理:右側GPU usage仍為0%,dNPU在40%上下
從具體的效果來看,聯想PC上的個人智能體AI NOW執行推理任務主要在dNPU內完成,無需占用 CPU、顯存或GPU資源,整個推理過程中,CPU的資源占用極低,僅在數據預處理以及數據傳輸環節占用少量資源,可以顯著提高推理速度和整體性能。
這種設計整體優化了系統運行的高性能和低功耗。
具體來看,AI PC等端側設備通常受限于緊湊空間,內部留給各類組件的體積十分有限,因此M.2加速卡的體積也要足夠小。
芯動力基于RPP架構自主研發的AI芯片AE7100尺寸僅為17mm×17mm,集成了該芯片的M.2加速卡尺寸為22mmx88mm,大小與半張名片相當。

與之相匹配的是強大的性能,M.2加速卡擁有高達32TOPs的算力以及60GB/s的內存帶寬,功耗也被嚴格控制在8w以下,同時可支撐大模型在AI PC等設備上運行,適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問等開源模型。
為了讓M.2加速卡與PC自然融合,芯動力采用扇出型封裝,用玻璃載板替代ABF材料,既減小了芯片面積,還實現了低成本先進封裝。
值得一提的是,端側AI應用開發的需求多樣化,因此AI芯片需要降低開發者的軟件適配和調試難度、成本,讓其更容易實現AI應用的兼容,幫助其更快開發出相應應用。
在此基礎上,AE7100實現從底層指令集到上層驅動的全面兼容,沿用英偉達軟件棧,并進行了指令集、驅動層和開發庫的優化,提升開發效率與邏輯實現的直觀性。
同時,由于M.2加速卡兼容CUDA和ONNX,能夠滿足各類AI應用的多樣化需求,其高算力和內存帶寬能確保數據的高效穩定處理與傳輸。無論是圖像識別、自然語言處理等需要大量數據運算的AI任務,還是對數據實時性要求高的場景,該加速卡都能保障數據處理和傳輸的順暢,避免因算力不足或數據傳輸瓶頸導致的應用性能下降。
在AI和非AI設備上,M.2加速卡都實現了兼容。如AI智能調整、隱私保護等,聯想AI Monitor內置M.2加速卡,可以實現監控用戶的動作和姿勢,實時調整屏幕的傾斜角度和高度,以及用戶離開電腦前自動模糊屏幕等;對于非AI設備,聯想AI Monitor可以與其配合使用,利用M.2加速卡的算力處理來自用戶的請求。
可以看出,M.2加速卡針對端側設備部署大模型的優化是全方位的。也正因如此,在當前端側AI發展浪潮下,全球AI PC巨頭聯想選擇了與芯動力聯手。
將視角拉長,我們發現,這正是芯動力在AI時代精準洞察行業趨勢,積累勢能的最好體現。
三、“六邊形戰士”劍指邊緣AI,契合端側大模型部署痛點
想要剖析芯動力在當下的優勢,可以從其針對并行計算設計的芯片架構說起。
芯動力將其自研的RPP架構稱作“六邊形戰士”,主要解決的就是高性能、通用性可以兼得的難題。
這一架構既結合了NPU的高效率與GPU的高通用性優勢,更具備DSP的低延時,可滿足高效并行計算及AI計算應用,如圖像計算、視覺計算、信號處理計算等,大大提高了系統的實時性和響應速度。
芯動力的優勢在于,其是首家采用CUDA作為芯片架構的設計方向,利用數據流結構避免數據與計算單元間反復調用帶來的效率損失。并且其具有編譯器、運行時環境、高度優化的RPP庫,可全面兼容CUDA的端到端完整軟件棧,實現邊緣AI應用的快速高效部署。
這契合了當下大模型部署在端側設備的諸多痛點。
正如聯想相關負責人所說:“dNPU代表了未來大模型在PC等本地端推理的技術方向和趨勢。”
展望未來,該芯片可以提升大模型在端側部署時的推理速度,并降低功耗、提升能效,推動多元化AI應用涌現的同時,為AI PC帶來更多增長空間。或許在未來,dNPU對PC的加持會使其成為與GPU類似的電腦標配。
此外,dNPU可以以獨立的標準化插件存在,給用戶提供了更高的性價比和靈活性,如果其對生成式AI能力沒有更高需求,用戶可以不采用dNPU。反之,若將dNPU集成至CPU中,會導致產品價格過高,降低用戶的購買欲望。
或許在不遠的將來,dNPU就會作為標準化插件,廣泛出現在市面上所有可選擇配置的電腦機型中。邊緣AI時代的爆發已經有跡可循。
邊緣計算作為云端算力有效補充,同樣是大模型落地的必然趨勢。
大模型由于參數規模龐大、計算復雜度高,對算力的需求極為嚴苛,將大模型部署在云端,雖然能利用強大的云端算力,但數據往返云端的過程會產生不可忽視的延遲,這對于如自動駕駛、智能安防等對實時性要求極高的應用場景而言是致命的。
DeepSeek的出現,意味著邊緣AI競賽來到新的節點。在邊緣設備上運行更復雜、更強大的AI模型成為現實,吸引了眾多企業和開發者投身于邊緣AI領域的創新與競爭。
在這之前,芯動力基于RPP架構打造的AI芯片,已經憑借高性能、低功耗、低成本等優勢,在泛安防/邊緣服務器、工業影像/機器視覺、信號處理/醫療影像、機器人等邊緣AI應用市場有眾多應用落地,并與浪潮信息等眾多重磅玩家達成戰略合作。
可以確定的是,芯動力RPP芯片架構的應用潛力正被無限釋放出來,看到這一發展趨勢的芯動力,也加快了產品的發布節奏。據了解,今年,芯動力將推出基于RPP集成Chiplet的8nm R36芯片,2027年將推出更高性能的3nm R72芯片。
結語:RPP架構為邊緣AI時代爆發積勢
AI時代的產業發展速度之快、變化之多可謂有目共睹,從日常生活中的智能語音助手,到工業領域的智能生產系統,AI的應用正以前所未有的廣度與深度滲透進各個行業。這一浪潮下,AI芯片需要具備更強大的計算能力以滿足復雜運算需求,才能承接住這一波市場紅利。
因此,精準洞察產業發展趨勢、堅持自研創新、將自身業務體系做到極致才能有效應對市場變化。芯動力RPP架構的出現就是很好的例證,未來,其將基于這一“六邊形戰士”帶給邊緣AI時代什么樣的驚喜,我們拭目以待。