找到 1 篇关于此标签的文章
开发者实测 Qwen 3.6 与 Gemma 4,发现跑分领先的 Qwen 因死循环烧掉 8000+ Token 在真实任务中落败。大模型刷榜正扭曲能力认知,企业选型需从看榜单转向做实测。