返回首页
GGML
找到 2 篇关于此标签的文章
llama.cppQwen3
GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx
ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。
Apr 161 分钟
GGMLllama.cpp
GGML 新增 Q1_0 1 比特量化:以 1.15GB 运行 8B 模型
GGML 现已支持 Q1_0 1 比特量化,将 Bonsai 8B 模型压缩至 1.15GB,实现纯 CPU 推理,大幅降低部署门槛。
Apr 61 分钟