GGML

找到 2 篇关于此标签的文章

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化，在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度，并支持 260k 上下文窗口。

GGML 新增 Q1_0 1 比特量化：以 1.15GB 运行 8B 模型

GGML 现已支持 Q1_0 1 比特量化，将 Bonsai 8B 模型压缩至 1.15GB，实现纯 CPU 推理，大幅降低部署门槛。