量化

找到 2 篇关于此标签的文章

NVIDIA 自研 4 位量化把 26B 模型塞进消费显卡 — 精度损失不到 1%

NVIDIA 发布 NVFP4 量化版 Gemma-4-26B，压缩至 18.8GB 可在消费显卡运行，6 项基准测试精度损失均不超过 0.7%。4 位量化正从妥协变成优选，但这也是 NVIDIA 生态锁定的一步棋。

llama.cppllama-bench

llama.cpp 的 llama-bench 新增 -fitc 和 -fitt 基准测试标志

llama-bench 从 b8679 版本起新增 -fitc 和 -fitt 标志，使开发者能更精细地控制基准测试的时间输出格式。