Gemma 4
找到 19 篇关于此标签的文章
教程上新丨一键部署Gemma 4 31B,最高256K上下文,能力媲美Qwen3.5 397B
Google DeepMind 开 源 Gemma 4 31 B 现已登 陆 OpenBayes, 一 键部署, 256 K 上下文,Apache 2.0 授 权, 基 准 测 试表 现 媲美 Qwen 3 .5 397B。
Gemma 4 与 Qwen 3.5 GGUF 深度评测:oobabooga 的 量化基准分析
oobabooga 发布五份 GGUF 量化基准报告,采用 KL Divergence 方法对 Gemma 4 与 Qwen 3.5 系列模型的 70-90 个量化版本进行全面对比评 测。
Gemma 4 audio with MLX
Google's Gemma 4 E2B model can transcribe audio locally on macOS using MLX and a single uv run command.
修复 llama.cpp 中 Gemma 4 工具调用问题:根本原因解析
llama.cpp 中处理 Gemma 4 聊天模板的四个漏洞导致工具调用结果崩溃或陷入循环。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
Gemma 4 发布时 Google 禁用了隐藏的 MTP 头部
开发者在 Gemma 4 的 LiteRT 文件中发现了多 token 预测权重;Google 确认 MTP 存在但被故意禁用,旨在确保兼容性与广泛可用性。
Gemma 4 31B 在 EuroEval 五项欧洲语言评测中跻身前三
Gemma 4 31B 在 EuroEval 多语言排行榜中表现强劲,芬兰语位列第 1,丹麦语、法语和意大利语位列第 2。
Gemma 4 本地 CUDA 设置:精度陷阱与真实基准测试
在本地 CUDA 上运行 Gemma 4 时,若 KV 缓存边界处的数据类型不严格匹配,输出将静默退化。
深入谷歌 DeepMind Gemma 4 发布:背后所需的一切
Reddit 社区帖子剖析了谷歌 DeepMind 开源模型 Gemma 4 发布背后的工程挑战与物流协调细节。
在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记
开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。
在设备上运行私有AI手机助手:Gemma 4与PokeClaw
PokeClaw在Android上本地运行Gemma 4来控制任何应用——无云端、无数据泄露、无订阅。
Gemma 4 26B:Q8 mmproj 解锁 60K+ 上下文与视觉能力
在 Gemma 4 26B 上将 mmproj 从 F16 切换至 Q8_0,可在无损视觉质量的前提下增加约 30K 上下文令牌。
Gemma 4 31B 在本地硬件基准测试中匹敌 Gemini 2.5 Pro
社区基准测试显示,通过 llama.cpp 框架本地运行,Gemma 4 31B 达到了与 Gemini 2.5 Pro 相当的性能分数。
逐层嵌入:Gemma 4 小型模型的工作原理
Gemma 4 的 E2B 和 E4B 模型采用逐层嵌入架构而非 MoE,实现了新的推理性能权衡,更适合本地部署。
TheLocalDrummer 发布 Skyfall-31B v4.2 无审查角色扮演模型
社区微调者 TheLocalDrummer 发布了 Skyfall-31B v4.2,这是一款专注于无审查角色扮演的本地 LLM 模型,支持本地部署且无 API 限制。
TurboQuant KV Cache Quantization Beats Baselines on Gemma 4 and Qwen
Community benchmarks show TurboQuant KV quantization achieves near-zero accuracy loss at 3.1 bits on Gemma 4 with 34% long-context speedup.
Gemma 4 27B vs Qwen 3.5 27B: SVG Generation Benchmark
Reddit users compare Gemma 4 31B and Qwen 3.5 27B Q4 quants on SVG creation, coding, and function calling tasks.
NYT Connections Benchmark: MiniMax-M1 Leads Local LLMs at 34.4
Community benchmark ranks MiniMax-M1 at 34.4, Gemma 4 31B at 30.1, Arcee Trinity Large Thinking at 29.5 on NYT Connections puzzles.
Gemma 4 llama.cpp Issues Resolved With Recent Fixes
Google Gemma 4 models now run correctly in llama.cpp after critical fixes for output quality and crashes