QwenSAE
Qwen 开源稀疏自编码器,大模型内部可读可调 — 可解释性赛道中国玩家入场
Qwen 在 HuggingFace 开源了基于 Qwen3.5-27B 的稀疏自编码器,含 80K 特征维度。这让大模型内部逻辑首次可被中国团队拆解、操控,是可解释性方向的重要跟进。
May 3·1 分钟
Qwen-2.5-3BActivation Steering
Qwen-2.5-3B 中的情感向量引导:D318 始终具有抑制作用
开发者在 Qwen-2.5-3B 上构建了情感向量引导流程,发现维度 318 始终抑制情感输出,导致模型行为坍缩为单一模式。
Apr 6·1 分钟