Mixture-of-Experts

找到 1 篇关于此标签的文章

Qwen3.6-35B-A3B released!

Alibaba's Qwen team releases a 35B sparse MoE model with only 3B active params under Apache 2.0.