llama.cpp
找到 30 篇关于此标签的文章
Qwen3.6 GGUF Benchmarks
Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.
GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx
ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。
Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析
oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。
Gemma 4 越狱系统提示词流传,开源权重 模型的安全边界再受考验
一段声称可绕过 Gemma 4 安全过滤机 制的系统提示词在 Reddit 上获得 112 个赞,涉及 GGUF 与 MLX 两种量化格式。
本 地 AI 最棒
一篇来自 Reddit 的帖子称赞本地 AI 工具,但不含任何可核实的新闻、数据 或技术进展。
Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores
社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基 准测试显示,Q8_0 变体得分接近 0.001,Q5 以 下质量急剧下降。
端侧AI 模型部署实战五(Android大模型加载)
Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.
llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models
llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理, 大幅扩展了这一开源推理引擎的应用边界。
Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件
Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本,覆盖从 1-bit(60.7 GB)到 BF16(457 GB)的完整量化梯度,大幅降低本地部署门槛。
MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon
社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。
KV缓存压缩技术突破:本地大模型部署成本的结构性重写
llama.cpp实现6.8倍KV缓存压缩,131K上下文显存从8.2GB降至1.2GB,直接重写本地部署AI的硬件采购逻辑。
本地OCR模型崛起:票据识别外包的终结倒计时
llama.cpp现已支持本地运行OCR模型,企业文档识别可脱离云端API,倒逼每年千万级票据外包市场重新定价。
本地 LLM 在 8-9 次链式调用后工具调用准确率下降
Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。
Qwen 3.5 35B 基准测试:AMD Strix Halo 上的 Vulkan 与 ROCm 对决
在 AMD Ryzen AI MAX+ 395 上,Vulkan 在令牌生成方面胜出(约 57.5 t/s),而 ROCm 在提示处理方面领先(约 1052 t/s)。
修复 llama.cpp 中 Gemma 4 工具调用问题:根本原因解析
llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
RTX 5070 12GB 显存本地 LLM 部署指南
在配备 12GB 显存的 RTX 5070 平台上,为聊天、创意写作及音乐生成选择本地 AI 模型的完整指南。
Google Edge Gallery 应用:来自 LocalLLaMA 社区的首次体验
一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验,认为其表现令人印象深刻。
Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试
在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。
Gemma-4 E4B 视觉基准测试:得分 0.27 远低于 Qwen3.5-4B 的 0.5
社区测试显示,Gemma-4 E4B 在 100 项视觉任务中仅得 0.27 分,远低于 Qwen3.5-4B 的 0.5 基准分,引发对多模态应用的担忧。
llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志
llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志,使开发者能更精细地控制基准测试的时间输出格式。
GGML 新增 Q1_0 1 比特量化:以 1.15GB 运行 8B 模型
GGML 现已支持 Q1_0 1 比特量化,将 Bonsai 8B 模型压缩至 1.15GB,实现纯 CPU 推理,大幅降低部署门槛。
llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速
一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化,使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。
37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果
社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。
单张 RTX 4090 上最佳本地代理编码 LLM
一位 RTX 4090 用户通过 llama.cpp 及 Google turbo 量化方法,对 GLM-4.7、Nemotron-30B 和 Qwen3-Coder 进行本地代理编码基准测试。
APEX 量化与 K-Quants:为何 MoE 编码模型需要不同的压缩策略
APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度,在跨文件编码代理任务中表现优于通用的 K-quants 方法。
Qwen3.5 与 Gemma4 及云端大模型对比:Python Turtle 绘图基准测试
Reddit 用户对本地与云端大模型进行 Python Turtle 绘图基准测试,发现 Gemma4 与 Gemini 在视觉风格上高度相似,本地量化模型表现强劲。
Gemma 4 26B:Q8 mmproj 解锁 60K+ 上下文与视觉能力
在 Gemma 4 26B 上将 mmproj 从 F16 切换至 Q8_0,可在无损视觉质量的前提下增加约 30K 上下文令牌。
HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度
腾讯 HunyuanOCR 1B 模型经 GGUF 量化后,在 GTX 1060 上推理速度达 90 tokens/sec,使低成本硬件本地 OCR 成为可能。
当工具链成为枯燥的基础设施,本地 AI 走向主流
Reddit 热议指出:本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升,正如 Docker 引发的容器革命。