芯東西(公眾號:aichip001)
作者 | ?程茜
編輯 |? 漠影
超一個月訓練時長、TB/PB級別的數據容量、行業數據的實時動態更新……這些模型訓練、推理與迭代的核心流程中日益復雜的需求,都對數據存儲提出了更嚴苛的要求。
一直以來,算力、數據、算法作為驅動大模型發展的“三駕馬車”已是行業共識,而如今伴隨大模型的發展,此前Scaling Law指引下的算力競賽是AI發展的上半場,那么以大規模應用為核心的AI落地競賽,已然將先進存力推至產業競爭的聚光燈下。
在這背后,我們看到了中國存儲芯片賽道的一匹黑馬——平頭哥半導體的鎮岳510 SSD主控芯片。

▲平頭哥半導體鎮岳510 SSD主控芯片
鎮岳510的IO處理能力達到3400K IOPS,數據帶寬達到14GB/s,能效比達到420K IOPS/Watt,其通過自研LDPC糾錯算法與介質電壓預測算法,誤碼率比業內頭部產品領先1個數量級,且擁有4μs時延,比業界主流產品降低超30%以上。
具備大容量、低時延、高能效、高帶寬、高可靠、低成本六大特性的鎮岳510,既是阿里云AI存儲體系的核心底座,更釋放出成為AI產業存儲能力升級“芯引擎”的潛力。
一、AI時代冷熱數據邏輯重構,鎮岳510六大硬指標破局
穩定、高效、安全的數據存儲在大模型時代至關重要。
一方面,傳統的冷熱數據概念被顛覆,以往因訪問頻率低被稱冷數據的信息,現在也可以在大模型場景發揮作用,大模型的精準度、泛化能力高度依賴海量、高質量且多樣化的數據支撐;另一方面,其在訓練階段所需的大規模標注數據、文本圖像音頻等異構數據、推理過程中實時調用的動態數據、模型優化時依賴的反饋數據,都需要數據存儲體系承載。
可以說,在一定程度上數據存儲直接決定了大模型的發展上限與應用價值。
當下,千億、萬億級別參數規模的大模型誕生,就意味著其訓練過程可能需同時承載TB級的模型參數、PB級的訓練語料及TB級的中間計算結果,還要維持在長達數月訓練時間內的系統穩定,避免因中途數據丟失或損壞導致訓練流程中斷。
再加上大模型存儲集群芯片能耗、成本控制,這意味著存儲芯片的核心競爭力成為容量、速度、能效、兼容性、可靠性的多維協同。
而兼具高性能與低成本雙重核心優勢的平頭哥鎮岳510,與大模型時代數據存儲在這些維度的需求高度契合。
為了更為直觀對比其性能與大模型訓練的需求,平頭哥半導體技術服務專家楊澤宏舉例說,公開數據顯示GPT-3在幾個月的訓練時間內,GPU利用率不到40%,其中大部分時間都在進行故障恢復、數據預處理。這是當下大模型訓練效率提升的一大難點。
而鎮岳510誤碼率低至10?1?,這就意味著讀取一塊32TB的硬盤,一天寫一遍,連續十年才出一個無法恢復的讀錯誤。這種高可靠性盡可能地減少了因為存儲出現不可恢復性錯誤導致的模型訓練中斷。
平頭哥半導體產品總監周冠鋒提到,雖然AI訓練、推理集群當下的性能瓶頸是算力和算力密度,但存力的重要性也不斷提升,算力的性能和存力能提供的IO性能之間有一定匹配關系,隨著未來算力密度進一步提升、算力規模擴大,必然會要求存力密度和存力的IO性能隨之提高。鎮岳510擁有最大隨機讀帶寬3400K IOPS,隨機寫帶寬2500K IOPS,并率先實現4μs的超低時延,比業界主流降低30%以上。
這種兼具高可靠性與穩定性的數據存儲系統,就使得AI訓練集群提高GPU利用率、降低訓練成本水到渠成。
二、與阿里云軟硬協同,為AI場景提供高容量、高性能存力
這些能力的落地,背后是平頭哥清晰的技術戰略,將發力點集中在性能提升與容量擴大兩大方向上,其本質就是破解當前存儲芯片瓶頸,適配AI場景的核心需求。
首先在性能提升層面,平頭哥看到了兩個市場機遇。
其一是市場需求的急迫性,楊澤宏提到,性能在云存儲當中有著巨大價值,特別是高性能緩存可以解決數據延遲、數據不一致等問題。
其二是傲騰技術的退出,意味著業界急需一種能夠解決高性能緩存需求的更優方案。
平頭哥瞄準了pSLC技術,楊澤宏進一步透露,他們采用傳統的TLC介質,通過固件與電壓控制技術也就是僅施加高低兩種電壓信號,將TLC的單個存儲單元切換為SLC模擬模式。
這樣一來,可以提升大模型訓練前數據準備的效率,因為其對數據進行清洗、格式化、標注等操作往往需要全局頻繁隨機讀寫。
目前,基于鎮岳510的pSLC在阿里云OSS上進行灰度試驗,其實測發現,與傲騰相比,基于鎮岳510的pSLC,隨機讀帶寬可以提升17%,寫帶寬維持和傲騰介質相當的水平,相對于目前主流的TLC SSD+硬盤的混閃模式,pSLC+硬盤的組合可以提供更高的讀寫IOPS。與此同時,鎮岳510還實現了和傲騰一致的極低寫延時、近乎無限的寫壽命。
其次是擴大存儲容量,平頭哥的策略是前瞻性布局。
楊澤宏解釋說,平頭哥的布局之一是提早規劃、適配未來5~6年可能出現的更多介質。
目前,諸多存儲介質廠商提出QLC、OLC和PLC,可以預見未來芯片單位封裝的容量會持續提升,這隨之而來的挑戰就是,如何協同底層算法優化、負載均衡、充分發揮大容量介質的作用。
在此基礎上,鎮岳510和阿里云協同探索ZNS(分區命名空間)+QLC存儲解決方案。
相比于現在業界主流看好的FDP方案,楊澤宏談道,他們選擇ZNS有兩大原因,一是FDP無法釋放冗余雜質,二是ZNS可以降低對DRAM的占用。隨著存儲介質迭代,單個存儲單元需承載更多bit數據,導致介質本身的可靠性下降,為對沖這一風險,介質廠商趨向于提供更大OP(預留空間),而FDP無法釋放OP就使得存儲介質的低成本優勢大打折扣。
平頭哥與阿里云正深度協同合作,積極探索這一解決方案的應用。
除了AI,鎮岳510在分布式存儲上同樣展現出強大的競爭優勢,其為阿里云EBS打造了更優的混合讀寫QoS,實測的99%時延表現僅為使用海外兩大主流競品時延的56%和84%。
綜合來看,作為平頭哥旗下首款SSD主控芯片,其于2023年11月發布至今,以阿里云數據中心為起點,正在更多AI核心場景釋放價值。
三、大模型驅動存力價值升級,鎮岳510瞄準四大進階方向
大模型發展至今,可以肯定的一點是,存力的核心價值正在被重新定義,其作為AI效能的核心樞紐價值凸顯。
今年8月,中國信息通信研究院發布了《先進存力中心研究報告(2025)》,其中提到我國數據生產量逐年增長,存力建設略顯滯后,數據仍存在“應存未存”現象。
據《全國數據資源調查報告》所示,2023年至2024年數據年產量增速25%,數據存儲總量增速為20.81%,這意味著存力缺口存在,在大模型飛速發展的同時持續強化存力建設迫在眉睫。
一開始就錨定高性能、高可靠性、低成本的鎮岳510,內置RISC-V多核CPU,可以提供強大的算力支持,能適應AI、數據庫、云計算等高性能應用場景,已經站上這一波先進存力競賽的第一梯隊。
而這僅僅是AI存力競賽的起點,AI需求仍在飆漲,正迫切呼喚性能更強、容量更大、SSD容量開銷更低、功耗更優的存儲芯片加速誕生。
楊澤宏談道,隨著大模型應用大規模鋪開,其需要降低實時推理時延、支撐更大容量,其必備的兩大指標就是高帶寬、大容量,未來或許可以達到一顆主控芯片實現PB級容量。
針對上文提到的超大OP趨勢,其需要降低內部存儲容量開銷,迭代算法優化釋放OP,基于片內RAID提高數據、空間的利用率。
最后是針對大型AI集群算力帶來的能量損耗,針對其中數量較多的核心部件,降低SSD的功耗可以顯著降低整個數據中心能源損耗。
一方面可以通過制程演進降低主控芯片本身的功率密度,另一方面可以通過先進的電源管理模塊,實現低功耗模式高效運行,同時讓發熱量盡可能保持平穩,制冷系統的功率也相對平穩。
周冠鋒補充說,目前其還在探索針對更細分場景優化產品特性,例如統一地址尋址、新CXL接口等。
但總的來看,平頭哥鎮岳510在先進存力競賽上正憑借實力突圍。
此前AI Infra建設多以算力規模為核心指標,而當算力密度不斷增大,與之深度綁定的存力,其重要性也隨之愈發凸顯,成為不可忽視的關鍵支撐。
結語:嶄露頭角的平頭哥鎮岳510,還有巨大的想象空間
在大模型驅動的先進存力時代,數據的價值早已超越存儲留存的基礎范疇,單純將數據存起來只是滿足了AI運轉的前提,而通過存儲體系的優化讓數據被高效利用起來,才是釋放數據價值、撬動AI效能的關鍵。
作為存儲主控芯片賽道的后來者,平頭哥鎮岳510短短幾年已成功通過了阿里云存儲和多家硬盤廠商的檢驗,這也意味著在存力領域,鎮岳510已經拿到了一張門票。當然,這只是故事的開端,面向即將爆發的AI推理市場,鎮岳還有巨大的想象空間。