内存墙下的“降维打击”：中国AI如何用1.58比特重塑端侧大模型格局

在人工智能的军备竞赛中，一场关于“内存”的战争正在悄然打响。长期以来，大模型规模的扩张始终受制于硬件显存的物理极限。一个典型的8B参数大模型，通常需要约16GB的显存支撑，这意味着随着模型参数量的增加，昂贵的内存成本正成为阻碍AI普及的“硬墙”。然而，就在全球技术竞赛进入白热化之际，一种极端的压缩方案——三值量化，正试图以一种近乎“降维打击”的方式，打破这一僵局。

这种被称为“1.58-bit”的技术方案，其核心逻辑在于极致的精简：将原本拥有成千上万种数值取值的权重，直接压缩至仅剩三种。如果将传统大模型的权重比作一幅色彩斑斓的全彩照片，三值量化则将其简化为仅由黑、白、灰三色构成的极简图形。直觉上，这种精度的剧烈损失似乎不可避免，但研究表明，大模型权重中存在着海量的冗余信息。通过精准的分配，三值化可以在大幅缩减内存占用的同时，保留模型绝大部分的核心能力。

就在全球业界围绕这一思路进行探索时，一个基于国产算力底座的突破性成果——BitCPM-CANN系列模型，正式向世界交出了答卷。在华为鲲鹏昇腾开发者大会上，面壁智能联合清华大学及OpenBMB社区发布的这一系列模型，不仅实现了高达97.2%的能力保留率，更在工程实践上完成了从算法到国产硬件生态的闭环。这意味着，原本需要16GB显存才能驱动的8B模型，现在仅需不到3GB，即可在普通的智能手机上流畅运行。

BitCPM-CANN的意义远不止于一次算法的迭代，它更是一场“软硬协同”的范式革命。在硬件端，高通最新的旗舰芯片已经展现出对低比特原生推理的支持；在模型端，BitCPM系列通过极高的压缩效率，为大规模参数模型进入移动端铺平了道路。更重要的是，这一突破是在国产算力生态下实现的。通过在昇腾等国产计算平台上完成训练与优化，BitCPM证明了国产算力不仅能承载大模型，更能通过算法创新实现性能的跨越式提升。

随着AI应用从云端向边缘侧迁移，端侧AI的效率将决定下一代智能终端的形态。当大模型能够轻量化地驻留在手机、穿戴设备甚至智能家居中时，真正的个人智能助手才算真正诞生。BitCPM的出现，不仅为解决“内存焦虑”提供了技术路径，更为构建一个自主可控、高效且普惠的端侧AI生态提供了关键支撑。这场关于效率与规模的博弈，正引领着人工智能进入一个新的纪元。

🔗 来源：爱范儿 (ifanr)

内存墙下的“降维打击”：中国AI如何用1.58比特重塑端侧大模型格局

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)