IT之家 5 月 25 日消息,面壁智能聯(lián)合清華大學、OpenBMB 開源社區(qū),今天正式發(fā)布并開源其在低比特大模型訓練方向的最新成果 ——BitCPM-CANN。
官方表示,這是中國首個完全基于國產(chǎn)算力平臺(華為昇騰)實現(xiàn)端到端訓練并開源的三值(1.58-bit)大模型。從量化算子、訓練算法到全鏈路框架,BitCPM-CANN 均在華為昇騰上原生完成,包含 0.5B、1B、3B、8B 四個模型尺寸,與同尺寸 MiniCPM4 全精度家族逐項對照評測,性能表現(xiàn)優(yōu)異。

相比傳統(tǒng) BF16 精度,BitCPM-CANN 在推理階段釋放約 6 倍顯存紅利,同時將模型能力保留率維持在 90%–97.2%。

官方表示,對手機產(chǎn)業(yè)來說,6 倍的顯存紅利意味著,一個 8B 參數(shù)的 BitCPM-CANN 大模型,可以輕松運行在當前主流旗艦手機之上。
此外,面壁智能基于 MindSpeed × Megatron-LM 主干搭建了完整的低比特訓練底座,包含環(huán)境適配、32K 長序列支持、并行策略、融合算子等完整工程體系。從此,所有面向昇騰的低比特訓練工作,都可建立在同一套公共基礎設施之上。
BitCPM-CANN 0.5B / 1B / 3B / 8B 全系列模型權重現(xiàn)已開源,IT之家附鏈接如下:
HuggingFace:https://huggingface.co/collections/openbmb/bitcpm-cann
ModelScope:https://modelscope.cn/collections/OpenBMB/BitCPM-CANN
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。