llama.cpp

找到 30 篇关于此标签的文章

UnslothQwen3.6

Qwen3.6 GGUF Benchmarks

Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.

Apr 173 分钟

llama.cppQwen3

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化，在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度，并支持 260k 上下文窗口。

Apr 161 分钟

Gemma 4Qwen3.5

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

oobabooga 发布五份 GGUF 量化基准报告，采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评测。

Apr 151 分钟

Gemma-4Google-De epMind

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

一段声称可绕过 Gemma 4 安全过滤机制的系统提示词在 Reddit 上获得 112 个赞，涉及 GGUF 与 MLX 两种量化格式。

Apr 151 分钟

LocalLLaMAllama.cpp

本地 AI 最棒

一篇来自 Reddit 的帖子称赞本地 AI 工具，但不含任何可核实的新闻、数据或技术进展。

Apr 151 分钟

Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基准测试显示，Q8_0 变体得分接近 0.001，Q5 以下质量急剧下降。

Apr 141 分钟

llama.cppAndroid

端侧AI 模型部署实战五(Android大模型加载)

Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.

Apr 143 分钟

llama.cppGemma-4

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理，大幅扩展了这一开源推理引擎的应用边界。

Apr 121 分钟

UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本，覆盖从 1-bit（60.7 GB）到 BF16（457 GB）的完整量化梯度，大幅降低本地部署门槛。

Apr 121 分钟

MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7（229B MoE）的首批 GGUF 量化版本，提供 Q3_K_L（110GB）和 Q8_0（243GB）两种规格，现已上架 HuggingFace。

Apr 121 分钟

本地部署显存优化

KV缓存压缩技术突破：本地大模型部署成本的结构性重写

llama.cpp实现6.8倍KV缓存压缩，131K上下文显存从8.2GB降至1.2GB，直接重写本地部署AI的硬件采购逻辑。

Apr 111 分钟

OCR本地部署

本地OCR模型崛起：票据识别外包的终结倒计时

llama.cpp现已支持本地运行OCR模型，企业文档识别可脱离云端API，倒逼每年千万级票据外包市场重新定价。

Apr 101 分钟

Qwen-32Bllama.cpp

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障，原因是注意力稀释而非上下文限制。

Apr 81 分钟

Qwen3.5LocalAI

Qwen 3.5 35B 基准测试：AMD Strix Halo 上的 Vulkan 与 ROCm 对决

在 AMD Ryzen AI MAX+ 395 上，Vulkan 在令牌生成方面胜出（约 57.5 t/s），而 ROCm 在提示处理方面领先（约 1052 t/s）。

Apr 81 分钟

Gemma 4llama.cpp

修复 llama.cpp 中 Gemma 4 工具调用问题：根本原因解析

llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。

Apr 81 分钟

Gemma 4Qwen3

通过系统提示词控制 Gemma 4 思考令牌

用户难以像控制 Qwen-30B-A3B 那样，通过系统提示词可靠地切换 Gemma 4 的推理模式，暴露了模型在思考令牌控制上的实践缺口。

Apr 81 分钟

Ollamallama.cpp

RTX 5070 12GB 显存本地 LLM 部署指南

在配备 12GB 显存的 RTX 5070 平台上，为聊天、创意写作及音乐生成选择本地 AI 模型的完整指南。

Apr 81 分钟

Google Edge Galleryon-device LLM

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验，认为其表现令人印象深刻。

Apr 71 分钟

Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时，若 KV 缓存边界处的数据类型不严格匹配，输出将静默退化。

Apr 71 分钟

Gemma-4Qwen3.5

Gemma-4 E4B 视觉基准测试：得分 0.27 远低于 Qwen3.5-4B 的 0.5

社区测试显示，Gemma-4 E4B 在 100 项视觉任务中仅得 0.27 分，远低于 Qwen3.5-4B 的 0.5 基准分，引发对多模态应用的担忧。

Apr 71 分钟

llama.cppllama-bench

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志，使开发者能更精细地控制基准测试的时间输出格式。

Apr 61 分钟

GGMLllama.cpp

GGML 新增 Q1_0 1 比特量化：以 1.15GB 运行 8B 模型

GGML 现已支持 Q1_0 1 比特量化，将 Bonsai 8B 模型压缩至 1.15GB，实现纯 CPU 推理，大幅降低部署门槛。

Apr 61 分钟

llama.cppIntel Arc

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化，使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。

Apr 61 分钟

llama.cppQwen

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试，结果显示 MoE 模型在速度与质量比方面表现最佳。

Apr 61 分钟

llama.cppGLM-4.7

单张 RTX 4090 上最佳本地代理编码 LLM

一位 RTX 4090 用户通过 llama.cpp 及 Google turbo 量化方法，对 GLM-4.7、Nemotron-30B 和 Qwen3-Coder 进行本地代理编码基准测试。

Apr 61 分钟

llama.cppQwen Coder

APEX 量化与 K-Quants：为何 MoE 编码模型需要不同的压缩策略

APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度，在跨文件编码代理任务中表现优于通用的 K-quants 方法。

Apr 61 分钟

Qwen3.5Gemma4

Qwen3.5 与 Gemma4 及云端大模型对比：Python Turtle 绘图基准测试

Reddit 用户对本地与云端大模型进行 Python Turtle 绘图基准测试，发现 Gemma4 与 Gemini 在视觉风格上高度相似，本地量化模型表现强劲。

Apr 61 分钟

llama.cppGemma 4

Gemma 4 26B：Q8 mmproj 解锁 60K+ 上下文与视觉能力

在 Gemma 4 26B 上将 mmproj 从 F16 切换至 Q8_0，可在无损视觉质量的前提下增加约 30K 上下文令牌。

Apr 61 分钟

HunyuanOCRGGUF

HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度

腾讯 HunyuanOCR 1B 模型经 GGUF 量化后，在 GTX 1060 上推理速度达 90 tokens/sec，使低成本硬件本地 OCR 成为可能。

Apr 61 分钟

llama.cppOllama

当工具链成为枯燥的基础设施，本地 AI 走向主流

Reddit 热议指出：本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升，正如 Docker 引发的容器革命。

Apr 61 分钟

llama.cpp

Qwen3.6 GGUF Benchmarks

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的 量化基准分析

Gemma 4 越狱系统提示词流传，开源权重 模型的安全边界再受考验

本 地 AI 最棒

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

端侧AI 模型部署实战五(Android大模型加载)

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

KV缓存压缩技术突破：本地大模型部署成本的结构性重写

本地OCR模型崛起：票据识别外包的终结倒计时

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 3.5 35B 基准测试：AMD Strix Halo 上的 Vulkan 与 ROCm 对决

修复 llama.cpp 中 Gemma 4 工具调用问题：根本原因解析

通过系统提示词控制 Gemma 4 思考令牌

RTX 5070 12GB 显存本地 LLM 部署指南

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

Gemma-4 E4B 视觉基准测试：得分 0.27 远低于 Qwen3.5-4B 的 0.5

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

GGML 新增 Q1_0 1 比特量化：以 1.15GB 运行 8B 模型

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试：完整速度结果

单张 RTX 4090 上最佳本地代理编码 LLM

APEX 量化与 K-Quants：为何 MoE 编码模型需要不同的压缩策略

Qwen3.5 与 Gemma4 及云端大模型对比：Python Turtle 绘图基准测试

Gemma 4 26B：Q8 mmproj 解锁 60K+ 上下文与视觉能力

HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度

当工具链成为枯燥的基础设施，本地 AI 走向主流

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

本地 AI 最棒