可解释性

找到 2 篇关于此标签的文章

Qwen 开源稀疏自编码器，大模型内部可读可调 — 可解释性赛道中国玩家入场

Qwen 在 HuggingFace 开源了基于 Qwen3.5-27B 的稀疏自编码器，含 80K 特征维度。这让大模型内部逻辑首次可被中国团队拆解、操控，是可解释性方向的重要跟进。

开发者在 Qwen-2.5-3B 上构建了情感向量引导流程，发现维度 318 始终抑制情感输出，导致模型行为坍缩为单一模式。