返回首页

llama.cpp

找到 30 篇关于此标签的文章

UnslothQwen3.6

Qwen3.6 GGUF Benchmarks

Un sloth claims top KLD-vs-disk-space performance for Qwen3.6-35B-A3B quants in 21 of 22 pareto frontier comparisons.

Apr 173 分钟
llama.cppQwen3

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。

Apr 161 分钟
Gemma 4Qwen3.5

Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析

oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。

Apr 151 分钟
Gemma-4Google-De epMind

Gemma 4 越狱系统提示词流传,开源权重 模型的安全边界再受考验

一段声称可绕过 Gemma 4 安全过滤机 制的系统提示词在 Reddit 上获得 112 个赞,涉及 GGUF 与 MLX 两种量化格式。

Apr 151 分钟
LocalLLaMAllama.cpp

本 地 AI 最棒

一篇来自 Reddit 的帖子称赞本地 AI 工具,但不含任何可核实的新闻、数据 或技术进展。

Apr 151 分钟
Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基 准测试显示,Q8_0 变体得分接近 0.001,Q5 以 下质量急剧下降。

Apr 141 分钟
llama.cppAndroid

端侧AI 模型部署实战五(Android大模型加载)

Step-by-step JNI bridge implementation for running quantized LLMs on Android using llama.cpp.

Apr 143 分钟
llama.cppGemma-4

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理, 大幅扩展了这一开源推理引擎的应用边界。

Apr 121 分钟
UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本,覆盖从 1-bit(60.7 GB)到 BF16(457 GB)的完整量化梯度,大幅降低本地部署门槛。

Apr 121 分钟
MiniMax-M2.7llama.cpp

MiniMax-M1 229B MoE 首批 GGUF 量化版本现已支持 Apple Silicon

社区贡献者发布 MiniMax-M2.7(229B MoE)的首批 GGUF 量化版本,提供 Q3_K_L(110GB)和 Q8_0(243GB)两种规格,现已上架 HuggingFace。

Apr 121 分钟
本地部署显存优化

KV缓存压缩技术突破:本地大模型部署成本的结构性重写

llama.cpp实现6.8倍KV缓存压缩,131K上下文显存从8.2GB降至1.2GB,直接重写本地部署AI的硬件采购逻辑。

Apr 111 分钟
OCR本地部署

本地OCR模型崛起:票据识别外包的终结倒计时

llama.cpp现已支持本地运行OCR模型,企业文档识别可脱离云端API,倒逼每年千万级票据外包市场重新定价。

Apr 101 分钟
Qwen-32Bllama.cpp

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。

Apr 81 分钟
Qwen3.5LocalAI

Qwen 3.5 35B 基准测试:AMD Strix Halo 上的 Vulkan 与 ROCm 对决

在 AMD Ryzen AI MAX+ 395 上,Vulkan 在令牌生成方面胜出(约 57.5 t/s),而 ROCm 在提示处理方面领先(约 1052 t/s)。

Apr 81 分钟
Gemma 4llama.cpp

修复 llama.cpp 中 Gemma 4 工具调用问题:根本原因解析

llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。

Apr 81 分钟
Gemma 4Qwen3

通过系统提示词控制 Gemma 4 思考令牌

用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。

Apr 81 分钟
Ollamallama.cpp

RTX 5070 12GB 显存本地 LLM 部署指南

在配备 12GB 显存的 RTX 5070 平台上,为聊天、创意写作及音乐生成选择本地 AI 模型的完整指南。

Apr 81 分钟
Google Edge Galleryon-device LLM

Google Edge Gallery 应用:来自 LocalLLaMA 社区的首次体验

一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验,认为其表现令人印象深刻。

Apr 71 分钟
Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。

Apr 71 分钟
Gemma-4Qwen3.5

Gemma-4 E4B 视觉基准测试:得分 0.27 远低于 Qwen3.5-4B 的 0.5

社区测试显示,Gemma-4 E4B 在 100 项视觉任务中仅得 0.27 分,远低于 Qwen3.5-4B 的 0.5 基准分,引发对多模态应用的担忧。

Apr 71 分钟
llama.cppllama-bench

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志,使开发者能更精细地控制基准测试的时间输出格式。

Apr 61 分钟
GGMLllama.cpp

GGML 新增 Q1_0 1 比特量化:以 1.15GB 运行 8B 模型

GGML 现已支持 Q1_0 1 比特量化,将 Bonsai 8B 模型压缩至 1.15GB,实现纯 CPU 推理,大幅降低部署门槛。

Apr 61 分钟
llama.cppIntel Arc

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化,使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。

Apr 61 分钟
llama.cppQwen

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。

Apr 61 分钟
llama.cppGLM-4.7

单张 RTX 4090 上最佳本地代理编码 LLM

一位 RTX 4090 用户通过 llama.cpp 及 Google turbo 量化方法,对 GLM-4.7、Nemotron-30B 和 Qwen3-Coder 进行本地代理编码基准测试。

Apr 61 分钟
llama.cppQwen Coder

APEX 量化与 K-Quants:为何 MoE 编码模型需要不同的压缩策略

APEX 量化针对 MoE 架构的连贯性层采用 Q8 精度,在跨文件编码代理任务中表现优于通用的 K-quants 方法。

Apr 61 分钟
Qwen3.5Gemma4

Qwen3.5 与 Gemma4 及云端大模型对比:Python Turtle 绘图基准测试

Reddit 用户对本地与云端大模型进行 Python Turtle 绘图基准测试,发现 Gemma4 与 Gemini 在视觉风格上高度相似,本地量化模型表现强劲。

Apr 61 分钟
llama.cppGemma 4

Gemma 4 26B:Q8 mmproj 解锁 60K+ 上下文与视觉能力

在 Gemma 4 26B 上将 mmproj 从 F16 切换至 Q8_0,可在无损视觉质量的前提下增加约 30K 上下文令牌。

Apr 61 分钟
HunyuanOCRGGUF

HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度

腾讯 HunyuanOCR 1B 模型经 GGUF 量化后,在 GTX 1060 上推理速度达 90 tokens/sec,使低成本硬件本地 OCR 成为可能。

Apr 61 分钟
llama.cppOllama

当工具链成为枯燥的基础设施,本地 AI 走向主流

Reddit 热议指出:本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升,正如 Docker 引发的容器革命。

Apr 61 分钟