返回首页

GGUF

找到 9 篇关于此标签的文章

GoogleGemma 4

谷歌 Gemma 4 修好对话模板 — 本地跑大模型的体验又往前挪了一步

谷歌开源模型 Gemma 4 的对话模板 bug 本周被修复,社区量化版同步更新。这不是大新闻,但说明本地部署 AI 的可用性正在被细节打磨一点点推高。

May 41 分钟
MistralUnsloth

Mistral 本地版文件损坏已修复 — 开源模型的品控盲区比你想的大

Mistral Medium 3.5 的本地运行版本此前全部文件损坏,输出乱码,本周被社区修复。小事一桩,但暴露了开源模型"官方只管 API、本地格式靠社区"的品控真空——对企业本地部署决策有实际影响。

May 21 分钟
UnslothQwen3.6

Qwen3.6 GGUF Benchmarks

Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.

Apr 173 分钟
Gemma 4Qwen3.5

Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析

oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。

Apr 151 分钟
Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基 准测试显示,Q8_0 变体得分接近 0.001,Q5 以 下质量急剧下降。

Apr 141 分钟
llama.cppAndroid

端侧AI 模型部署实战五(Android大模型加载)

Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.

Apr 143 分钟
UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本,覆盖从 1-bit(60.7 GB)到 BF16(457 GB)的完整量化梯度,大幅降低本地部署门槛。

Apr 121 分钟
MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。

Apr 121 分钟
Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。

Apr 71 分钟