LocalLLaMA

找到 30 篇关于此标签的文章

阿里 Qwen 3.6 Max 悄悄上线，中国模型榜单第一——但开源还是闭源，这才是真正的问题

Alibaba's Qwen 3.6 Max quietly launched in preview, scoring highest among Chinese models — but its open-source status remains undecided.

Apr 202 分钟

LocalLLaMAQwen3

本地 AI 自己调工具还在「鬼打墙」——开源社区的真实使用体验比宣传落后整整一代

Reddit 上一个获得 103 点赞、148 条回复的帖子，集中暴露了本地运行 AI 模型时「工具调用」功能的真实状态：模型声称完成了任务，文件根本不存在；声称网站已就绪，打开是空文件。这不是个案，而是当前开源小模型在执行复杂指令时的普遍短板——值得所有正在评估「私有化部署 AI」方

Apr 191 分钟

LocalLLaMARTX 3090

两张显卡能不能同时跑两个 AI 模型？一个真实用户案例揭示本地部署的核心取舍

一位拥有 RTX 3090（24GB）和 RTX 3060（12GB）双显卡的用户，在 Reddit 上提出了一个典型问题：两张规格不同的显卡，到底该跑一个大模型还是同时跑两个？这个问题背后，是越来越多人尝试在自己电脑上运行 AI 模型时都会遇到的硬件资源分配难题。

Apr 191 分钟

LocalLLaMAQwen3

两块消费级显卡拼在一起能跑什么大模型——普通人自建 AI 算力的边界正在移动

Reddit 上一个关于「双 3090 显卡能跑什么」的讨论，折射出一个正在悄悄发生的变化：越来越多的人开始用消费级硬件在家跑大语言模型。这件事值得关心，不是因为技术本身有多新，而是它代表 AI 算力的门槛正在向个人倾斜。

Apr 191 分钟

LocalLLaMA

Is harness a new buzzword?

Not AI news.

Apr 181 分钟

Qwen3LocalLLaMA

Qwen 3.6 is the first local model that actually feels worth the effort for me

阿里巴巴 Qwen 3.6 35B-A3B 在双消费级 GPU 上以 Q8 量化运行，实现 170 tokens/秒与完整 260K 上下文，社区称其首次真正替代云端编程助手。

Apr 171 分钟

LocalLLaMAOpenWebUI

迁移至本地模型

原文为个人技术支持提问，不构成可报道的 AI 新闻事件，未通过相关性审核。

Apr 171 分钟

Qwen3.6-35BLocalLLaMA

Qwen3.6-35B is worse at tool use and reasoning loops than 3.5?

社区测试者反映，Qwen3.6- 35B 在 agentic 编程任务中比 Qwen3.5 更容易陷入无限推理循环，工具调用可靠性出现明显退步。

Apr 171 分钟

GoogleGemini

Reddit 社区呼吁谷歌开源 Imagen（2022）、Gemini 1.0 Nano 与 Gemini 1.0 Pro

r /LocalLLaMA 社区发帖敦促谷歌开源多款已废弃的旧世代模型，包括 Imagen、Gemini 1.0 及 PaLM 2，谷歌方面尚无任何回应。

Apr 161 分钟

QwenAlib aba

Alibaba Releases Qwen3.6-35B-A3B Mixture-of-Experts Model

Alibaba's Qwen team releases Qwen3.6-35B-A3B, a 35B-parameter MoE model activating 3B parameters per token.

Apr 162 分钟

Gemma-4Google-De epMind

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

一段声称可绕过 Gemma 4 安全过滤机制的系统提示词在 Reddit 上获得 112 个赞，涉及 GGUF 与 MLX 两种量化格式。

Apr 151 分钟

LocalLLaMAllama.cpp

本地 AI 最棒

一篇来自 Reddit 的帖子称赞本地 AI 工具，但不含任何可核实的新闻、数据或技术进展。

Apr 151 分钟

Qwen3.5GGUF

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

社区对 Qwen3.5- 9B 逾 35 种 GGUF 量化版本的 KLD 基准测试显示，Q8_0 变体得分接近 0.001，Q5 以下质量急剧下降。

Apr 141 分钟

MLXQwen 3.5

DFlash 投机解码登陆 Apple Silicon：Qwen3.5-9B 实现 4.1 倍加速，现已开源（MLX，M5 Max）

开源项目 DFlash 在 M5 Max 上借助 MLX 实现 Qwen3.5-9B 推理 4.13 倍加速，token 接受率高达 89.4%。

Apr 131 分钟

GemmaQwen3

Why some small/medium models fail at grammar checking task?

Gemma 4B、GPT-OSS-20B 和 Qwen3-80B 在语法无误的句子中「幻觉」出拼写错误，暴露了指令微调模型在语法检查场景下的系统性缺陷。

Apr 131 分钟

UnslothMiniMax-M2.7

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

Unsloth 为 MiniMax M2.7 上传 22 个 GGUF 量化版本，覆盖从 1-bit（60.7 GB）到 BF16（457 GB）的完整量化梯度，大幅降低本地部署门槛。

Apr 121 分钟

MiniMaxMiniMax-M2.7

MiniMax M2.7 以「开放」名义发布，却禁止商业使用

MiniMax M2.7 在 Hugging Face 公开权重，但许可证明确禁止商业用途、付费 API 及盈利性微调，引发社区广泛争议。

Apr 121 分钟

Gemma 4Qwen3

通过系统提示词控制 Gemma 4 思考令牌

用户难以像控制 Qwen-30B-A3B 那样，通过系统提示词可靠地切换 Gemma 4 的推理模式，暴露了模型在思考令牌控制上的实践缺口。

Apr 81 分钟

Gemma 4Google DeepMind

Gemma 4 31B 在 EuroEval 五项欧洲语言评测中跻身前三

Gemma 4 31B 在 EuroEval 多语言排行榜中表现强劲，芬兰语位列第 1，丹麦语、法语和意大利语位列第 2。

Apr 71 分钟

Google Edge Galleryon-device LLM

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

一位 LocalLLaMA 用户分享了 Google 面向 Android 的 Edge Gallery 端侧 AI 应用的早期体验，认为其表现令人印象深刻。

Apr 71 分钟

Gemma 4Google DeepMind

深入谷歌 DeepMind Gemma 4 发布：背后所需的一切

Reddit 社区帖子剖析了谷歌 DeepMind 开源模型 Gemma 4 发布背后的工程挑战与物流协调细节。

Apr 61 分钟

MinimaxLocalLLaMA

本地 LLM 社区期待 Minimax 2.7 更新

Reddit 的 LocalLLaMA 社区对 Minimax 2.7 表示期待，但具体细节依然匮乏，尚无技术参数或发布日期。

Apr 61 分钟

Llamafine-tuning

在 4chan 数据上微调可提升 Llama 8B 和 70B 的基准测试分数

一名研究者在 4chan 数据上微调了 Llama 8B 和 70B 模型，报告称两个模型均超越了其基础版本。

Apr 61 分钟

Claude Opus 4Anthropic

Claude Opus 4 在《艾尔登法环》中受挫：对 AGI 宣称的现实检验

一名开发者测试 Claude Opus 4 玩《艾尔登法环》，模型无法走出初始房间，质疑 Jensen Huang 关于 AGI 已实现的宣称。

Apr 61 分钟

Gemma 4Google

Gemma 4 31B Matches Gemini 2.5 Pro on Local Hardware Benchmarks

Community benchmarks show Gemma 4 31B achieving Gemini 2.5 Pro-level scores when run locally via llama.cpp harness.

Apr 61 分钟

PerplexityEmbedding Models

Perplexity Releases MIT-Licensed Embedding Models for Local Use

Perplexity AI has published several embedding models under the MIT license, enabling free commercial use in local deployments.

Apr 61 分钟

QwenAlibaba Cloud

Qwen 3.6 现身官方应用，与 3.5 Max 预览版同框

Reddit 用户发现 Qwen 3.6 已出现在官方 Qwen 应用中，暗示该模型即将面向公众发布，不再局限于 API 访问。

Apr 51 分钟

REAPQuantization

35% REAP Quantization Runs 397B Model on 96GB GPU

A community researcher achieved usable quality from a 397B parameter model using 35% REAP quantization on a 96GB GPU.

Apr 51 分钟

MiniMax-M1Gemma 4

NYT Connections Benchmark: MiniMax-M1 Leads Local LLMs at 34.4

Community benchmark ranks MiniMax-M1 at 34.4, Gemma 4 31B at 30.1, Arcee Trinity Large Thinking at 29.5 on NYT Connections puzzles.

Apr 51 分钟

Gemma-4-31BMulti-Agent

Gemma-4-31B Multi-Agent Swarm Matches Gemini Pro and GPT-5 Benchmarks

A LocalLLaMA user built a Gemma-4-31B agent swarm achieving performance comparable to frontier closed models.

Apr 41 分钟

LocalLLaMA

阿里 Qwen 3.6 Max 悄悄上线，中国模型榜单第一——但开源还是闭源，这才是真正的问题

本地 AI 自己调工 具还在「鬼打墙」——开源社区的真实使 用体验比宣传落后整整一代

两张显卡能不能同时跑两个 AI 模 型？一个真实用户案例揭示本地 部署的核心取舍

两块消费级显卡拼在一起能跑什 么大模型——普通人自建 AI 算力的 边界正在移动

Is harness a new buzzword?

Qwen 3.6 is the first local model that actually feels worth the effort for me

迁移至本地模型

Qwen3.6-35B is worse at tool use and reasoning loops than 3.5?

Reddit 社区呼吁谷歌开源 Imagen（2022）、Gemini 1.0 Nano 与 Gemini 1.0 Pro

Alibaba Releases Qwen3.6-35B-A3B Mixture-of-Experts Model

Gemma 4 越狱系统提示词流传，开源权重 模型的安全边界再受考验

本 地 AI 最棒

Qwen3.5-9B GGUF Quant Rankings: Q8_0 Dominates KLD Scores

DFlash 投机解码登陆 Apple Silicon：Qwen3.5-9B 实 现 4.1 倍加速，现已开源（MLX，M5 Max）

Why some small/medium models fail at grammar checking task?

Unsloth 发布 MiniMax M2.7 完整 GGUF 量化套件

MiniMax M2.7 以「开放」名义发布，却禁止商业使用

通过系统提示词控制 Gemma 4 思考令牌

Gemma 4 31B 在 EuroEval 五项欧洲语言评测中跻身前三

Google Edge Gallery 应用：来自 LocalLLaMA 社区的首次体验

深入谷歌 DeepMind Gemma 4 发布：背后所需的一切

本地 LLM 社区期待 Minimax 2.7 更新

在 4chan 数据上微调可提升 Llama 8B 和 70B 的基准测试分数

Claude Opus 4 在《艾尔登法环》中受挫：对 AGI 宣称的现实检验

Gemma 4 31B Matches Gemini 2.5 Pro on Local Hardware Benchmarks

Perplexity Releases MIT-Licensed Embedding Models for Local Use

Qwen 3.6 现身官方应用，与 3.5 Max 预览版同框

35% REAP Quantization Runs 397B Model on 96GB GPU

NYT Connections Benchmark: MiniMax-M1 Leads Local LLMs at 34.4

Gemma-4-31B Multi-Agent Swarm Matches Gemini Pro and GPT-5 Benchmarks

本地 AI 自己调工具还在「鬼打墙」——开源社区的真实使用体验比宣传落后整整一代

两张显卡能不能同时跑两个 AI 模型？一个真实用户案例揭示本地部署的核心取舍

两块消费级显卡拼在一起能跑什么大模型——普通人自建 AI 算力的边界正在移动

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

本地 AI 最棒

DFlash 投机解码登陆 Apple Silicon：Qwen3.5-9B 实现 4.1 倍加速，现已开源（MLX，M5 Max）