返回首页

Qwen

找到 30 篇关于此标签的文章

QwenRTX 3090

消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低

一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s,背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案,关心本地部署的人值得留意这个趋势。

5d ago1 分钟
QwenHermes Agent

本地小模型跑通初级IT运维 — 30年老兵判断:管理员人机比将改写

一位近30年经验IT老兵实测:Qwen3.6 27b本地模型配Agent框架,1.5小时完成初级管理员3小时的活。本地小模型干初级运维已跨过可用门槛,企业IT编制逻辑即将调整。

5d ago1 分钟
QwenSolidity

开发者周末调出 Solidity 专精模型反超 Opus — 垂域小模型性价比时刻到了

一位开发者用 Qwen 底座微调出 27B 参数的 Solidity 专精模型,在编程基准上超过 Claude Opus。这件事本身不大,但印证了一个趋势:垂直场景里,便宜的小模型正在追上昂贵的通用大模型。

6d ago1 分钟
DeepSeekQwen

实测 65% 代码任务可本地运行 — API 账单降 74%,多数人在为懒惰交云算力税

开发者实测发现 65% 的日常编程任务本地小模型完全胜任,按任务路由后 API 费用降 74%。这揭示了一个被忽视的事实:多数人没搞清哪些工作真需要云端,就在为懒惰支付高昂溢价。

6d ago1 分钟
APEXQwen

APEX量化新增25款模型:百亿参数AI塞进家用显卡,算力门槛正被抹平

开源项目APEX推出针对MoE模型的新量化方案,一个月新增25款以上压缩模型,并推出极低体积的I-Nano层级。这让原本需企业级算力的百亿参数AI,现在单张家用显卡即可运行,大幅降低本地部署成本。

May 51 分钟
llama.cppMTP

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测,目前适配 Qwen3.5。结合张量并行成熟,本地推理框架与云端服务之间的速度差距正在收窄,对本地部署大模型的可行性有实质提升。

May 41 分钟
Hermes AgentQwen

失业研究员用本地AI跑出21页专业报告 — 开源Agent进入够用但慢的阶段

一位15年经验的政策研究员,在消费级硬件上用开源模型和Agent框架,5小时自主迭代6轮生成专业级研究报告。AI做深度研究从概念验证进入'能用但别急'阶段,值得传统知识工作者关注。

May 41 分钟
NVIDIARTX A5000 Pro

NVIDIA 48GB 显存专业卡 A5000 Pro 上架 — 本地跑大模型不用再切双卡了

NVIDIA RTX A5000 Pro Blackwell 48GB 显卡售价约 4500 美元,单卡即可运行 Qwen 27B 量化模型。对想本地部署 AI 的中小企业,这比双卡方案更简洁,但性价比仍需仔细算账。

May 41 分钟
QwenAssistant_Pepe

Qwen 开源微调版学会拒绝 — AI 不再讨好你这件事有人当真了

开源社区基于 Qwen3-32B 微调出一个'不讨好'的 AI 助手,故意注入负面偏见减少谄媚。这不是玩票,而是对 AI 行业长期忽视的'讨好症'的一次认真回应。

May 31 分钟
QwenSAE

Qwen 开源稀疏自编码器,大模型内部可读可调 — 可解释性赛道中国玩家入场

Qwen 在 HuggingFace 开源了基于 Qwen3.5-27B 的稀疏自编码器,含 80K 特征维度。这让大模型内部逻辑首次可被中国团队拆解、操控,是可解释性方向的重要跟进。

May 31 分钟
Qwen本地部署

Qwen3.6 反常识:35B 比 27B 更快更好 — 参数规模不是选模型的靠谱标尺

Qwen3.6 的 35B 版本被开发者实测发现比 27B 质量更高、速度更快,打破"参数少更轻快"的常识。这提醒企业:模型选型不能只看参数量,实测数据比数字更重要。

May 31 分钟
hfviewerHugging Face

开发者做出 Hugging Face 模型可视化工具 — 看懂大模型黑盒不再需要读代码

一位开发者推出 hfviewer.com,可将 Hugging Face 上的大模型架构转化为交互式图表。这值得关心,因为它把原本需要读代码才能理解的模型结构变成了直观视觉图,降低了非技术人员了解 AI 黑盒的门槛。

May 31 分钟
QwenCoder-Next

Qwen3.6-27B 与 Coder-Next 实测打平 — 选模型不看跑分看场景

一位开发者用 20 小时实测发现,Qwen3.6-27B 与 MoE 架构的 Coder-Next 整体胜率持平,但在不同任务上表现天差地别。更意外的是:关闭「思考模式」反而更稳定。传统跑分正在失灵,场景选型才是关键。

May 31 分钟
QwenLDR

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity,Agent比拼工具调用而非模型大小

开源项目LDR用单张3090跑出95.7%深搜准确率,追平Perplexity云端水平。关键发现:Agent场景下工具调用能力比模型参数量更重要,本地AI搜索进入实用阶段。

May 21 分钟
QwenGemma

Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

开发者实测 Qwen 3.6 与 Gemma 4,发现跑分领先的 Qwen 因死循环烧掉 8000+ Token 在真实任务中落败。大模型刷榜正扭曲能力认知,企业选型需从看榜单转向做实测。

May 21 分钟
QwenMCP

开源社区造出混合检索记忆工具 — Agent 不靠大上下文也能记事了

一个基于 Qwen3.5-4B 的开源 MCP 记忆工具,用 BM25+向量混合检索给 Agent 加项目记忆。值得关心:Agent 记忆的主流解法正从'堆上下文窗口'转向'做对检索',小模型路线让落地门槛显著降低。

May 21 分钟
QwenvLLM

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

开发者在 Windows 原生环境跑通 Qwen3.6-27B 模型,速度达 72 tok/s。这大幅降低了本地部署门槛,传统企业无需配置 Linux 环境即可用现有显卡跑起大模型。

May 21 分钟
Qwen阿里云

Qwen 3.6 本地替代 Copilot — 零 API 费,但新手别碰

一位开发者用 Qwen 3.6-27B 量化版 + RTX 6000 Pro 写了一整天代码,API 调用为零。本地模型到了'够用'的临界点,但前提是你得会写代码。

May 21 分钟
QwenUnsloth

Qwen3.6-27B量化跑进单张消费显卡—本地部署甜蜜点正在出现

Qwen3.6-27B 经 Unsloth Q5 量化后部署在单张 RTX 5090 上实测,19 轮任务表现稳定。中等规模模型的本地部署可行性正在实质性提高,值得关心硬件成本与能力边界的交汇点。

May 11 分钟
QwenGemma

Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率

Reddit 用户用同一吃豆人游戏 Prompt 测试两个开源模型,Gemma 4 以1/5的token和1/5的时间产出更可玩的结果。这提醒我们:本地部署时代,模型效率比生成量更值得关注。

May 11 分钟
QwenAlibaba

阿里 Qwen 3.6 Max 悄悄上线,中国模型榜单第一——但开源还是闭源,这才是真正的问题

Alibaba's Qwen 3.6 Max quietly launched in preview, scoring highest among Chinese models — but its open-source status remains undecided.

Apr 202 分钟
QwenClaude

有人开始用国产开源模型替换 Claude 做日常编程助手 — 性能差距正在缩小到「够用」

Reddit 上一个有 184 个点赞、143 条讨论的帖子显示,已有开发者认真考虑用阿里的 Qwen-35B-A3B 替换 Anthrop ic 的 Claude Opus 4.7 作为日常编程工具。这件事值得关心,不是因为某个人换了个软件,而是它折射出一个趋势:AI 模型的「够用线」正在快速下移

Apr 201 分钟
Qwen阿里巴巴

本地运行的阿里 Qwen 模型,在普通电脑上实现了「浏览器当操作系统」— 开源模型的能力边界正在被重新丈量

一位开发者用阿里巴巴开源的 Qwen 3.6 35B 模型,在本地(无需云端服务器)实现了「Browser OS」——让 AI 像操作系统一样调度浏览器完成复杂任务。他称这是迄今为止本地模型跑出的最好结果。这件事值得关注,因为它说明开源模型的实际可用性,正在追上那些要收费的云端大模型。

Apr 191 分钟
阿里巴巴Qwen

一台消费级显卡,AI 帮用 户重写了整个记账软件——阿里 Qwen 新模型让「本地运行」开 始变得真实

阿里巴巴最新发布的 Qwen3.6-35B-A3B 模型,在一 位普通用户的消费级显卡(RTX 5070 Ti,16GB 显 存)上,用不到一小时完成了代码审查、 安全漏洞排查和重构工作。这不是实 验室基准测试,是真实项目里上一代 模型卡死的问题被解决了。它值 得关注,因为「在自己电脑上跑大模型做

Apr 181 分钟
QwenAlib aba

Alibaba Releases Qwen3.6-35B-A3B Mixture-of-Experts Model

Alibaba's Qwen team releases Qwen3.6-35B-A3B, a 35B-parameter MoE model activating 3B parameters per token.

Apr 162 分钟
QwenQwen3.6- 35B-A3B

Qwen3.6-35B-A3B released!

Alibaba's Qwen team releases a 35B sparse MoE model with only 3B active params under Apache 2.0.

Apr 163 分钟
QwenAmazon SageMaker

使用 SageMaker RLVR 微调 Qwen 2.5 以支持工具调用

AWS SageMaker 无服务器 RLVR 微调使 Qwen 2.5 7B 的工具调用准确率提升 57%,无需管理 GPU。

Apr 71 分钟
llama.cppQwen

37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果

社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。

Apr 61 分钟
OpenCodellama-server

OpenCode + 本地 LLM:哪些模型最适合独立开发者任务

在 RTX 4080 上对 OpenCode 与 6+ 款自托管 LLM 进行实战基准测试,涵盖真实编码任务。

Apr 61 分钟
QwenvLLM

Agent 集群结合连续批处理将 LLM 任务时间缩短 36 倍

在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B,利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。

Apr 61 分钟