local-inference

找到 2 篇关于此标签的文章

llama.cppGemma-4

llama.cpp Adds Audio Processing Support via Gemma-4 E2 A/E4A Models

llama-server 现已支持通过 Google Gemma-4 E2A 与 E4A 多模态模型在本地运行语音转文字推理，大幅扩展了这一开源推理引擎的应用边界。

Gemma 4llama.cpp

Gemma 4 Local CUDA Setup: Precision Traps and Real Benchmarks

Running Gemma 4 locally on CUDA requires strict dtype matching at KV cache boundaries or output degenerates silently.