昨晚 Kimi K2 开源还有一个对于 LLM 训练非常重要的启发。 之前很多人怀疑 Muon 优化器没办法训练 K2 这种超大规模的模型,月之暗面证明了是可以的。 kimi 用基于 Muon 的 MuonClip 优化器将可以训练的模型规模推到了万亿这个级别。 在 15.5 万亿的 Token 规模上进行训练,训练过程非常稳定。 模型的损失(loss)或梯度没有出现异常的剧烈上升,保持的非常漂亮且平稳的曲线。 而且 Muon 这么重要的研发成果居然都没有发表论文,仅仅是一篇博客文章,说明 AI 行业的技术评审机制在变化。 另外评论里 Prashant 提出这个比喻也让人对未来充满了信心,以往衡量模型大小的单位是 B,现在我们终于进入了 T 时代。 https://x.com/Yuchenj_UW/status/1943721656276726142 Holy shit. Kimi K2 was pre-trained on 15.5T tokens using MuonClip with zero training spike. Muon has officially scaled to the 1-trillion-parameter LLM level. Many doubted it could scale, but here we are. So proud of the Moum team: @kellerjordan0 , @bozavlado , @YouJiacheng , @leloykun , Laker Newhouse, @jxbz . Congratulations to the @Kimi_Moonshot team for this achievement and open sourcing the SOTA non-reasoning model! Still wild that Muon is just a blog post. Not even an arXiv paper.