发生了什么

llama.cpp 项目已合并对两个新命令行参数的支持,用于其 llama-bench 基准测试工具:-fitc(格式化输入 token 数量)和 -fitt(格式化输入 token 耗时)。这些标志从 b8679 版本开始可用。这一更新受到了运行本地 LLM 性能测试的社区成员的期待。

为何重要

llama-bench 是衡量本地硬件推理吞吐量的标准工具。在此更新之前,基准测试输出格式选项有限,使得编写自动化性能比较脚本或将结果管道化到监控仪表板变得更加困难。新标志让开发者能够明确控制 token 数量和计时列的呈现方式,这在以下场景中尤为重要:

  • 比较不同模型量化版本(如 Q4_K_M、Q8_0 等)的性能
  • 将基准测试数据输入 CI 流水线或电子表格
  • 在同一台机器上对 GPU 和 CPU 后端运行批量测试

对于运行自托管推理的独立开发者和中小企业而言,更清晰的基准测试输出减少了手动评估硬件升级或量化变更是否真正提升了“每美元吞吐量”的工作量。

亚太视角

中国和东南亚的开发者经常使用成本优化的硬件(如消费级 GPU RTX 4060 或 Apple Silicon MacBook)运行 llama.cpp,以规避云 API 成本和数据驻留问题。当评估 Qwen2.5 或 DeepSeek-R1 等中文模型在不同量化级别下的表现时,具有统一输出格式的自动化基准测试尤为宝贵。-fitc-fitt 标志使得构建本地脚本变得更加容易,这些脚本可在新模型版本发布时追踪每秒 token 数的回归情况,而无需手动解析不一致的控制台输出。

本周行动项

将您的 llama.cpp 构建更新至 b8679 或更高版本,然后针对当前模型运行 llama-bench -fitc -fitt,以建立可与硬件配置一同进行版本控制的 CSV 友好型输出基线。