返回首页
MoE
找到 6 篇关于此标签的文章
MiniMax-M2.7llama.cpp
MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon
社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。
Apr 121 分钟
llama.cppQwen
37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果
社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。
Apr 61 分钟
Gemma 4vLLM
在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记
开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。
Apr 61 分钟
llama.cppQwen Coder
APEX 量化与 K-Quants:为何 MoE 编码模型需要不同的压缩策略
APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度,在跨文件编码代理任务中表现优于通用的 K-quants 方法。
Apr 61 分钟
TritonMoE
纯 Triton MoE 内核在 512 以下批次规模中超越 Megablocks 运行 Mixtral
一种融合 Triton 内核将 MoE 前向传播从 24+ 次启动减少至 5 次,在批次规模 128 时比 Megablocks 快 31%。
Apr 51 分钟
Qwen3Alibaba Cloud
Qwen3.6-397B-A17B: First Open Model to Match Claude Sonnet in Real Use
Community testing finds Qwen3.6-397B-A17B matches Claude Sonnet reliability in real tasks, beating GLM-5.1 and Kimi-k2.5.
Apr 42 分钟