LocalLLaMA
找到 30 篇关于此标签的文章
阿里 Qwen 3.6 Max 悄悄上线,中国模型榜单第一——但开源还是闭源,这才是真正的问题
Alibaba's Qwen 3.6 Max quietly launched in preview, scoring highest among Chinese models — but its open-source status remains undecided.
本地 AI 自己调工 具还在「鬼打墙」——开源社区的真实使 用体验比宣传落后整整一代
Reddit 上一 个获得 103 点赞、148 条回复的帖子,集中 暴露了本地运行 AI 模型时「工具调用」功能的真实状态: 模型声称完成了任务,文件根本不存在; 声称网站已就绪,打开是空文件。 这不是个案,而是当前开源小模型在执 行复杂指令时的普遍短板——值得所有正 在评估「私有化部署 AI」方
两张显卡能不能同时跑两个 AI 模 型?一个真实用户案例揭示本地 部署的核心取舍
一位 拥有 RTX 3090(24GB)和 RTX 3060(12GB)双显卡的用户,在 Reddit 上提出了一个典型问题:两张规格不同的显卡,到 底该跑一个大模型还是同时跑两个?这个问题背 后,是越来越多人尝试在自己电脑上运行 AI 模型时都 会遇到的硬件资源分配难题。
两块消费级显卡拼在一起能跑什 么大模型——普通人自建 AI 算力的 边界正在移动
Reddit 上一个关于「双 3090 显卡 能跑什么」的讨论,折射出一个正在悄悄发生的变化:越 来越多的人开始用消费级硬件在家跑大 语言模型。这件事值得关心,不 是因为技术本身有多新,而是它代表 AI 算力的门槛正在向个人倾斜。
Is harness a new buzzword?
Not AI news.
Qwen 3.6 is the first local model that actually feels worth the effort for me
阿里巴巴 Qwen 3.6 35B-A3B 在双消费级 GPU 上以 Q8 量化运行,实现 170 tokens/秒与完整 260K 上下文,社 区称其首次真正替代云端编程助手。
迁移至本地模型
原文为个人技术支持提问,不 构成可报道的 AI 新闻事件,未通过相关性审核 。
Qwen3.6-35B is worse at tool use and reasoning loops than 3.5?
社区测试者反映,Qwen3.6- 35B 在 agentic 编程任务中比 Qwen3.5 更 容易陷入无限推理循环,工具调用可靠性出现明 显退步。
Reddit 社区呼吁谷歌开源 Imagen(2022)、Gemini 1.0 Nano 与 Gemini 1.0 Pro
r /LocalLLaMA 社区发帖敦促谷歌开源多款已 废弃的旧世代模型,包括 Imagen、Gemini 1.0 及 PaLM 2,谷歌方面尚无任何回应。
Alibaba Releases Qwen3.6-35B-A3B Mixture-of-Experts Model
Alibaba's Qwen team releases Qwen3.6-35B-A3B, a 35B-parameter MoE model activating 3B parameters per token.
Gemma 4 越狱系统提示词流传,开源权重 模型的安全边界再受考验
一段声称可绕过 Gemma 4 安全过滤机 制的系统提示词在 Reddit 上获得 112 个赞,涉及 GGUF 与 MLX 两种量化格式。
本 地 AI 最棒
一篇来自 Reddit 的帖子称赞本地 AI 工具,但不含任何可核实的新闻、数据 或技术进展。
Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores
社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基 准测试显示,Q8_0 变体得分接近 0.001,Q5 以 下质量急剧下降。
DFlash 投机解码登陆 Apple Silicon:Qwen3.5-9B 实 现 4.1 倍加速,现已开源(MLX,M5 Max)
开源项目 DFlash 在 M5 Max 上借助 MLX 实现 Qwen3.5-9B 推理 4.13 倍加速,token 接受率高达 89.4%。
Why some small/medium models fail at grammar checking task?
Gemma 4B、GPT-OSS-20B 和 Qwen3-80B 在语法无误的句子中「幻觉」出拼写错误, 暴露了指令微调模型在语法检查场景下的系统性缺陷。
Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件
Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本,覆盖从 1-bit(60.7 GB)到 BF16(457 GB)的完整量化梯度,大幅降低本地部署门槛。
MiniMax M2.7 以「开放」名义发布,却禁止商业使用
MiniMax M2.7 在 Hugging Face 公开权重,但许可证明确禁止商业用途、付费 API 及盈利性微调,引发社区广泛争议。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
Gemma 4 31B 在 EuroEval 五项欧洲语言评测中跻身前三
Gemma 4 31B 在 EuroEval 多语言排行榜中表现强劲,芬兰语位列第 1,丹麦语、法语和意大利语位列第 2。
Google Edge Gallery 应用:来自 LocalLLaMA 社区的首次体验
一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验,认为其表现令人印象深刻。
深入谷歌 DeepMind Gemma 4 发布:背后所需的一切
Reddit 社区帖子剖析了谷歌 DeepMind 开源模型 Gemma 4 发布背后的工程挑战与物流协调细节。
本地 LLM 社区期待 Minimax 2.7 更新
Reddit 的 LocalLLaMA 社区对 Minimax 2.7 表示期待,但具体细节依然匮乏,尚无技术参数或发布日期。
在 4chan 数据上微调可提升 Llama 8B 和 70B 的基准测试分数
一名研究者在 4chan 数据上微调了 Llama 8B 和 70B 模型,报告称两个模型均超越了其基础版本。
Claude Opus 4 在《艾尔登法环》中受挫:对 AGI 宣称的现实检验
一名开发者测试 Claude Opus 4 玩《艾尔登法环》,模型无法走出初始房间,质疑 Jensen Huang 关于 AGI 已实现的宣称。
Gemma 4 31B Matches Gemini 2.5 Pro on Local Hardware Benchmarks
Community benchmarks show Gemma 4 31B achieving Gemini 2.5 Pro-level scores when run locally via llama.cpp harness.
Perplexity Releases MIT-Licensed Embedding Models for Local Use
Perplexity AI has published several embedding models under the MIT license, enabling free commercial use in local deployments.
Qwen 3.6 现身官方应用,与 3.5 Max 预览版同框
Reddit 用户发现 Qwen 3.6 已出现在官方 Qwen 应用中,暗示该模型即将面向公众发布,不再局限于 API 访问。
35% REAP Quantization Runs 397B Model on 96GB GPU
A community researcher achieved usable quality from a 397B parameter model using 35% REAP quantization on a 96GB GPU.
NYT Connections Benchmark: MiniMax-M1 Leads Local LLMs at 34.4
Community benchmark ranks MiniMax-M1 at 34.4, Gemma 4 31B at 30.1, Arcee Trinity Large Thinking at 29.5 on NYT Connections puzzles.
Gemma-4-31B Multi-Agent Swarm Matches Gemini Pro and GPT-5 Benchmarks
A LocalLLaMA user built a Gemma-4-31B agent swarm achieving performance comparable to frontier closed models.