昨晚 Kimi K2 开源还有一个对于 LLM 训练非常重要的启发。
之前很多人怀疑 Muon 优化器没办法训练 K2 这种超大规模的模型,月之暗面证明了是可以的。
kimi 用基于 Muon 的 MuonClip 优化器将可以训练的模型规模推到了万亿这个级别。
在 15.5 万亿的 Token 规模上进行训练,训练过程非常稳定。
模型的损失(loss)或梯度没有出现异常的剧烈上升,保持的非常漂亮且平稳的曲线。
而且 Muon 这么重要的研发成果居然都没有发表论文,仅仅是一篇博客文章,说明 AI 行业的技术评审机制在变化。
另外评论里 Prashant 提出这个比喻也让人对未来充满了信心,以往衡量模型大小的单位是 B,现在我们终于进入了 T 时代。
https://x.com/Yuchenj_UW/status/1943721656276726142
Holy shit.
Kimi K2 was pre-trained on 15.5T tokens using MuonClip with zero training spike.
Muon has officially scaled to the 1-trillion-parameter LLM level. Many doubted it could scale, but here we are.
So proud of the Moum team:
@kellerjordan0
,
@bozavlado
,
@YouJiacheng
,
@leloykun
, Laker Newhouse,
@jxbz
. Congratulations to the
@Kimi_Moonshot
team for this achievement and open sourcing the SOTA non-reasoning model!
Still wild that Muon is just a blog post. Not even an arXiv paper.