Qwen3
找到 14 篇关于此标签的文章
手机本地跑 AI 不再需要联网—— 一个开源安卓应用正在把这件事变得可操作
Pocket LLM v1.4.0 本周更新:安装包从捆绑模型压缩到约 200MB,用户可在 App 内自行下载所需模型、离线运行 AI 对话。这不是大公司发布会,而是开源社区悄悄推进「手机本地 AI」可用性的一个缩影——值得关注的信号是,离线 AI 的门槛正在从「极客专属」向普通用户移动。
本地 AI 自己调工 具还在「鬼打墙」——开源社区的真实使 用体验比宣传落后整整一代
Reddit 上一 个获得 103 点赞、148 条回复的帖子,集中 暴露了本地运行 AI 模型时「工具调用」功能的真实状态: 模型声称完成了任务,文件根本不存在; 声称网站已就绪,打开是空文件。 这不是个案,而是当前开源小模型在执 行复杂指令时的普遍短板——值得所有正 在评估「私有化部署 AI」方
两块消费级显卡拼在一起能跑什 么大模型——普通人自建 AI 算力的 边界正在移动
Reddit 上一个关于「双 3090 显卡 能跑什么」的讨论,折射出一个正在悄悄发生的变化:越 来越多的人开始用消费级硬件在家跑大 语言模型。这件事值得关心,不 是因为技术本身有多新,而是它代表 AI 算力的门槛正在向个人倾斜。
Qwen 3 还是 Gemma 4?本地 部署玩家正在用实测替 代官方跑分——小模型选型 进入「场景优先」时代
Reddit 上一 个关于「聊天与问答场景下 Qwen 3 35B 和 Gemma 4 26B 哪个更好」的提问,引发大量本地部署用 户讨论。这件事本身不大,但背后的信号 值得关注:越来越多人开始绕开 官方基准测试,用自己的实际使用场景做 选型依据,小模型市场的竞争逻辑正在 悄悄换轨。
本地运行 AI 编程时, 要不要关掉「思考模式」?一个值得厘 清的实用问题
在自己电脑上 跑大模型写代码时,「思考模式」(模型在给出 答案前先进行内部推理的机制)到底是 帮手还是负担?这个问题在开发者社区里有真 实争议。我们认为,这不只是技 术设置问题,而是折射出当前 AI 编 程工具链一个尚未解决的结构性 矛盾。
Qwen 3.6 is the first local model that actually feels worth the effort for me
阿里巴巴 Qwen 3.6 35B-A3B 在双消费级 GPU 上以 Q8 量化运行,实现 170 tokens/秒与完整 260K 上下文,社 区称其首次真正替代云端编程助手。
GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx
ll ama.cpp 的 turboquant 分支通过 turbo3 KV cache 量化, 在单张 RTX 3080 12GB 显存上实现 Qwen3-35B-A3B 约 40 tok/s 推理速度,并支持 260k 上下文窗口。
AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍
AWS 基准测试显示,在 Trainium2 上结 合 vLLM 使用 speculative decoding,可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。
Why some small/medium models fail at grammar checking task?
Gemma 4B、GPT-OSS-20B 和 Qwen3-80B 在语法无误的句子中「幻觉」出拼写错误, 暴露了指令微调模型在语法检查场景下的系统性缺陷。
基于PA I的Agent数据构造与模型蒸馏解决方案
阿里云PAI团队开 源EasyDistill工具库,基于ReAct轨迹数据合成与模型蒸馏技术,已在Qwen3小参 数模型上完成验证。
通过系统提示词控制 Gemma 4 思考令牌
用户难以像控制 Qwen-30B-A3B 那样,通过系统提示词可靠地切换 Gemma 4 的推理模式,暴露了模型在思考令牌控制上的实践缺口。
llama.cpp Q8_0 通过 SYCL 修复在 Intel Arc GPU 上实现 3.1 倍加速
一段 200 行的 SYCL 补丁修复了 Q8_0 缺失的重排序优化,使 Intel Arc B70 的吞吐量从 4.88 t/s 提升至 15.24 t/s。
Harmonic-9B: Two-Stage Qwen3-9B Fine-Tune for Agent Use Cases
Community researcher releases Harmonic-9B, a staged fine-tune of Qwen3-9B targeting reliable tool-calling and structured reasoning.
Qwen3.6-397B-A17B: First Open Model to Match Claude Sonnet in Real Use
Community testing finds Qwen3.6-397B-A17B matches Claude Sonnet reliability in real tasks, beating GLM-5.1 and Kimi-k2.5.