在人工智能大模型迈向万亿参数规模的进程中,算力芯片的竞争重心正在发生一场深刻的范式转移。近日,国内全自研GPGPU创新企业——北京行云集成电路有限公司(以下简称“行云”)宣布完成Pre-A及Pre-A+多轮融资,融资金额突破4亿元人民币。此轮融资由五源资本、赛富投资基金、春华资本联合领投,并吸引了包括北京、江苏地方国资、佰维存储、创维资本等产业资本跟投。
这场融资不仅是资本对新锐芯片企业的认可,更揭示了当前AI硬件产业的一个核心痛点:算力瓶颈正在从“计算单元”向“显存容量”转移。随着MoE(混合专家模型)等稀疏架构的流行,大模型对内存的需求已从GB级跃升至TB级。在这一过程中,昂贵的HBM(高带宽内存)已成为制约大模型大规模部署的成本杀手,显存成本甚至开始超越芯片本身。
面对这一结构性挑战,由清华大学博士、原华为“天才少年”季宇领衔的行云团队,选择了一条极具颠覆性的技术路径。行云的核心逻辑在于“重构成本结构”:通过放弃成本极高的HBM,转而采用LPDDR甚至NAND(SSD颗粒)等低成本存储介质作为显存。这种方案虽然单颗粒带宽较低,但行云通过在架构上实现多颗粒、多通道的并行设计,利用规模化堆叠技术,成功将整体带宽提升至TB级别,从而在大幅降低1到2个数量级显存成本的同时,满足大模型推理的吞bar吞吐需求。
这种“以系统级设计弥补硬件单体不足”的思路,体现了行云深厚的工程底蕴。CTO余洪敏博士曾主导过百度昆仑芯与华为昇腾等多款芯片的量产,拥有丰富的流片经验。行云的技术策略不仅限于介质替换,更涵盖了Prefill/Decode分离(PD分离)、KV Cache稀疏化等前瞻性的工程手段,旨在通过软硬件协同,实现成本与效率的最优平衡,使AI推理能力能够从昂贵的云端下沉至低成本的端侧设备。
目前,行云的“褐蚁一体机”已在DeepSeek等本地化部署场景中得到验证,证明了低成本方案在稀疏模型上的可行性。随着公司核心目标的推进,首颗自研芯片的流片与市场化进程已提上日程。业内专家普遍认为,行云通过对显存成本结构的底层重构,正在为AI推理的“普惠化”铺平道路,其技术路径有望彻底打破当前高端算力受限的困局,开启AI Agent时代下的算力革命。



推荐意见