本地推理

找到 5 篇关于此标签的文章

Gemma 4llama.cpp

Gemma 4 本地 CUDA 设置：精度陷阱与真实基准测试

在本地 CUDA 上运行 Gemma 4 时，若 KV 缓存边界处的数据类型不严格匹配，输出将静默退化。

MinimaxLocalLLaMA

本地 LLM 社区期待 Minimax 2.7 更新

Reddit 的 LocalLLaMA 社区对 Minimax 2.7 表示期待，但具体细节依然匮乏，尚无技术参数或发布日期。

llama.cppGLM-4.7

单张 RTX 4090 上最佳本地代理编码 LLM

一位 RTX 4090 用户通过 llama.cpp 及 Google turbo 量化方法，对 GLM-4.7、Nemotron-30B 和 Qwen3-Coder 进行本地代理编码基准测试。

HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度

腾讯 HunyuanOCR 1B 模型经 GGUF 量化后，在 GTX 1060 上推理速度达 90 tokens/sec，使低成本硬件本地 OCR 成为可能。

Gemma 4Per-Layer Embeddings

逐层嵌入：Gemma 4 小型模型的工作原理

Gemma 4 的 E2B 和 E4B 模型采用逐层嵌入架构而非 MoE，实现了新的推理性能权衡，更适合本地部署。