发生了什么
LocalLLaMA 社区成员进行了一项结构化的 100 项视觉基准测试,对比 Gemma-4 E4B 与 Qwen3.5-4B。测试套件涵盖截图 OCR、旅行照片地理推断以及货架图像中的商品价格提取——均为单轮对话、无工具辅助,且拥有明确答案。结果显示:Qwen3.5-4B 得分为 0.50(校准基准),而 Gemma-4 E4B 仅为 0.27。测试首先通过 llama.cpp(构建版本 b8680,根据官方 Gemma-4 文档将 image-min-tokens 设置为 1120)使用来自 Unsloth 和 Bartowski 的 Q8 量化版本进行,随后使用 Hugging Face Transformers 重复测试以排除量化伪影。两种后端均产生了同样糟糕的结果。在基于 Google 官方 Gemma-4 博客文章图片的标准地理猜测测试中,llama.cpp 版本的 E4B 未返回任何答案;而 Transformers 版本返回了“意大利罗马”,正确答案应为“意大利威尼斯”。Qwen3.5-4B、Qwen3.5-9B 和 GLM-4.6V Flash 均给出了正确答案。
为何重要
对于构建多模态流水线的独立开发者和中小企业而言,在 4B 参数层级选择模型是关乎成本效益的关键决策。0.27 的得分——几乎只有基准的一半——意味着 Gemma-4 E4B 在文档解析、收据处理或基于图像的数据提取等生产级视觉任务中将引入不可接受的错误率。该基准测试方法(部分得分评分、多样化的任务类型)比标准的 VQA 排行榜更能代表真实的代理工作负载,因此这一发现具有实际操作意义而非单纯的学术探讨。
亚太视角
开发文档密集型或电子商务应用的中文及东南亚开发者——例如用于报销工具的收据 OCR、用于 Shopee 或 Lazada 集成的商品图像解析,或中文截图提取——应注意,Qwen3.5-4B 和 GLM-4.6V Flash 在此基准测试中均优于 Gemma-4 E4B。Qwen3.5 系列模型由阿里巴巴开发,已展现出强大的多语言和视觉理解能力,包括 CJK 脚本识别。智谱 AI 的 GLM-4.6V Flash 是另一个可行的区域替代方案。两者均能在消费级硬件上高效运行,并可通过 Hugging Face 和本地推理栈获取。
本周行动项
如果您有现有或计划中的使用 Gemma-4 E4B 的视觉流水线,请在部署前,使用相同的 llama.cpp 或 Transformers 后端,针对您的实际用例运行至少 20 项代表性任务并与 Qwen3.5-4B 进行对比——性能差距似乎在不同推理框架中保持一致,而不仅仅是量化问题。