返回首页
本地推理
找到 5 篇关于此标签的文章
Gemma 4llama.cpp
Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试
在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。
Apr 71 分钟
MinimaxLocalLLaMA
本地 LLM 社区期待 Minimax 2.7 更新
Reddit 的 LocalLLaMA 社区对 Minimax 2.7 表示期待,但具体细节依然匮乏,尚无技术参数或发布日期。
Apr 61 分钟
llama.cppGLM-4.7
单张 RTX 4090 上最佳本地代理编码 LLM
一位 RTX 4090 用户通过 llama.cpp 及 Google turbo 量化方法,对 GLM-4.7、Nemotron-30B 和 Qwen3-Coder 进行本地代理编码基准测试。
Apr 61 分钟
HunyuanOCRGGUF
HunyuanOCR 1B 通过 GGUF 在 GTX 1060 上实现每秒 90 个 token 的推理速度
腾讯 HunyuanOCR 1B 模型经 GGUF 量化后,在 GTX 1060 上推理速度达 90 tokens/sec,使低成本硬件本地 OCR 成为可能。
Apr 61 分钟
Gemma 4Per-Layer Embeddings
逐层嵌入:Gemma 4 小型模型的工作原理
Gemma 4 的 E2B 和 E4B 模型采用逐层嵌入架构而非 MoE,实现了新的推理性能权衡,更适合本地部署。
Apr 51 分钟