GGUF

找到 11 篇关于此标签的文章

UnslothQwen3.6

Qwen3.6 GGUF Benchmarks

Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.

Apr 173 分钟

Gemma 4Qwen3.5

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

oobabooga 发布五份 GGUF 量化基准报告，采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评测。

Apr 151 分钟

Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基准测试显示，Q8_0 变体得分接近 0.001，Q5 以下质量急剧下降。

Apr 141 分钟

llama.cppAndroid

端侧AI 模型部署实战五(Android大模型加载)

Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.

Apr 143 分钟

UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本，覆盖从 1-bit（60.7 GB）到 BF16（457 GB）的完整量化梯度，大幅降低本地部署门槛。

Apr 121 分钟

MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7（229B MoE）的首批 GGUF 量化版本，提供 Q3_K_L（110GB）和 Q8_0（243GB）两种规格，现已上架 HuggingFace。

Apr 121 分钟

Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时，若 KV 缓存边界处的数据类型不严格匹配，输出将静默退化。

Apr 71 分钟

llama.cppGemma 4

Gemma 4 26B：Q8 mmproj 解锁 60K+ 上下文与视觉能力

在 Gemma 4 26B 上将 mmproj 从 F16 切换至 Q8_0，可在无损视觉质量的前提下增加约 30K 上下文令牌。

Apr 61 分钟

HunyuanOCRGGUF

HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度

腾讯 HunyuanOCR 1B 模型经 GGUF 量化后，在 GTX 1060 上推理速度达 90 tokens/sec，使低成本硬件本地 OCR 成为可能。

Apr 61 分钟

Qwen3-Coderllama.cpp

Run Qwen3-Coder 80B Locally at 54GB With Apex Quantization

A community GGUF quantization shrinks Qwen3-Coder 80B to 54.1GB, making fast local coding inference practical.

Apr 52 分钟

Qwen3fine-tuning

Harmonic-9B: Two-Stage Qwen3-9B Fine-Tune for Agent Use Cases

Community researcher releases Harmonic-9B, a staged fine-tune of Qwen3-9B targeting reliable tool-calling and structured reasoning.

Apr 42 分钟