Qwen3

找到 14 篇关于此标签的文章

手机本地跑 AI 不再需要联网—— 一个开源安卓应用正在把这件事变得可操作

Pocket LLM v1.4.0 本周更新：安装包从捆绑模型压缩到约 200MB，用户可在 App 内自行下载所需模型、离线运行 AI 对话。这不是大公司发布会，而是开源社区悄悄推进「手机本地 AI」可用性的一个缩影——值得关注的信号是，离线 AI 的门槛正在从「极客专属」向普通用户移动。

Apr 191 分钟

LocalLLaMAQwen3

本地 AI 自己调工具还在「鬼打墙」——开源社区的真实使用体验比宣传落后整整一代

Reddit 上一个获得 103 点赞、148 条回复的帖子，集中暴露了本地运行 AI 模型时「工具调用」功能的真实状态：模型声称完成了任务，文件根本不存在；声称网站已就绪，打开是空文件。这不是个案，而是当前开源小模型在执行复杂指令时的普遍短板——值得所有正在评估「私有化部署 AI」方

Apr 191 分钟

LocalLLaMAQwen3

两块消费级显卡拼在一起能跑什么大模型——普通人自建 AI 算力的边界正在移动

Reddit 上一个关于「双 3090 显卡能跑什么」的讨论，折射出一个正在悄悄发生的变化：越来越多的人开始用消费级硬件在家跑大语言模型。这件事值得关心，不是因为技术本身有多新，而是它代表 AI 算力的门槛正在向个人倾斜。

Apr 191 分钟

Qwen3Gemma4

Qwen 3 还是 Gemma 4？本地部署玩家正在用实测替代官方跑分——小模型选型进入「场景优先」时代

Reddit 上一个关于「聊天与问答场景下 Qwen 3 35B 和 Gemma 4 26B 哪个更好」的提问，引发大量本地部署用户讨论。这件事本身不大，但背后的信号值得关注：越来越多人开始绕开官方基准测试，用自己的实际使用场景做选型依据，小模型市场的竞争逻辑正在悄悄换轨。

Apr 191 分钟

Qwen3本地大模型

本地运行 AI 编程时，要不要关掉「思考模式」？一个值得厘清的实用问题

在自己电脑上跑大模型写代码时，「思考模式」（模型在给出答案前先进行内部推理的机制）到底是帮手还是负担？这个问题在开发者社区里有真实争议。我们认为，这不只是技术设置问题，而是折射出当前 AI 编程工具链一个尚未解决的结构性矛盾。

Apr 181 分钟

Qwen3LocalLLaMA

Qwen 3.6 is the first local model that actually feels worth the effort for me

阿里巴巴 Qwen 3.6 35B-A3B 在双消费级 GPU 上以 Q8 量化运行，实现 170 tokens/秒与完整 260K 上下文，社区称其首次真正替代云端编程助手。

Apr 171 分钟

llama.cppQwen3

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化，在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度，并支持 260k 上下文窗口。

Apr 161 分钟

AWS-Trainium2vLLM

AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍

AWS 基准测试显示，在 Trainium2 上结合 vLLM 使用 speculative decoding，可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。

Apr 151 分钟

GemmaQwen3

Why some small/medium models fail at grammar checking task?

Gemma 4B、GPT-OSS-20B 和 Qwen3-80B 在语法无误的句子中「幻觉」出拼写错误，暴露了指令微调模型在语法检查场景下的系统性缺陷。

Apr 131 分钟

EasyDistillQwen3

基于PA I的Agent数据构造与模型蒸馏解决方案

阿里云PAI团队开源EasyDistill工具库，基于ReAct轨迹数据合成与模型蒸馏技术，已在Qwen3小参数模型上完成验证。

Apr 131 分钟

Gemma 4Qwen3

通过系统提示词控制 Gemma 4 思考令牌

用户难以像控制 Qwen-30B-A3B 那样，通过系统提示词可靠地切换 Gemma 4 的推理模式，暴露了模型在思考令牌控制上的实践缺口。

Apr 81 分钟

llama.cppIntel Arc

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化，使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。

Apr 61 分钟

Qwen3fine-tuning

Harmonic-9B: Two-Stage Qwen3-9B Fine-Tune for Agent Use Cases

Community researcher releases Harmonic-9B, a staged fine-tune of Qwen3-9B targeting reliable tool-calling and structured reasoning.

Apr 42 分钟

Qwen3Alibaba Cloud

Qwen3.6-397B-A17B: First Open Model to Match Claude Sonnet in Real Use

Community testing finds Qwen3.6-397B-A17B matches Claude Sonnet reliability in real tasks, beating GLM-5.1 and Kimi-k2.5.

Apr 42 分钟

Qwen3

手机本地跑 AI 不再需要联网—— 一个开源安卓应用正在把这件事变得可操作

本地 AI 自己调工 具还在「鬼打墙」——开源社区的真实使 用体验比宣传落后整整一代

两块消费级显卡拼在一起能跑什 么大模型——普通人自建 AI 算力的 边界正在移动

Qwen 3 还是 Gemma 4？本地 部署玩家正在用实测替 代官方跑分——小模型选型 进入「场景优先」时代

本地运行 AI 编程时， 要不要关掉「思考模式」？一个值得厘 清的实用问题

Qwen 3.6 is the first local model that actually feels worth the effort for me

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍

Why some small/medium models fail at grammar checking task?

基于PA I的Agent数据构造与模型蒸馏解决方案

通过系统提示词控制 Gemma 4 思考令牌

llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速

Harmonic-9B: Two-Stage Qwen3-9B Fine-Tune for Agent Use Cases

Qwen3.6-397B-A17B: First Open Model to Match Claude Sonnet in Real Use

本地 AI 自己调工具还在「鬼打墙」——开源社区的真实使用体验比宣传落后整整一代

两块消费级显卡拼在一起能跑什么大模型——普通人自建 AI 算力的边界正在移动

Qwen 3 还是 Gemma 4？本地部署玩家正在用实测替代官方跑分——小模型选型进入「场景优先」时代

本地运行 AI 编程时，要不要关掉「思考模式」？一个值得厘清的实用问题