Width Can Kill Sensitivity
static page
一作投稿工作。研究 TopK Sparse Autoencoder 在语义保持改写下的特征稳定性和 rare feature sensitivity。
submission 2026 under submission first author
#mechanistic-interpretability#sparse-autoencoder#topk-sae#feature-sensitivity#neurips
Overview#
这是我的一作投稿工作,围绕 TopK Sparse Autoencoder 的 feature sensitivity 展开。
我关注的问题是:如果两个输入在语义上等价,只是表达方式有轻微变化,那么 SAE 中对应的可解释特征是否仍然稳定激活?
如果一个 feature 在语义保持改写下非常容易消失,那么它作为解释单元的可靠性就值得怀疑。
Core problem#
TopK SAE 会选择激活值最高的 K 个特征。这个离散选择过程带来一个问题:一些 rare feature 可能正好处在 TopK cutoff 附近。
当输入发生轻微 paraphrase 扰动时,这些 feature 可能被附近 competitor 挤出 active set。这样即使语义没有改变,feature activation 也可能变得不稳定。
Main idea#
这篇工作尝试诊断并修复 TopK SAE 中 rare feature 的 sensitivity 问题。
核心思路包括:
- 用 meaning-preserving paraphrase 测量 feature sensitivity;
- 观察宽字典下 rare feature 的稳定性变化;
- 将问题诊断为 TopK boundary crowding;
- 使用 pairwise rank stabilization 约束 source-active feature 在 paraphrase 中仍然维持相对排序。
Why I care#
这篇工作对我来说不仅是一篇可解释性论文,也是一次理解模型内部表征稳定性的尝试。
我现在更长期感兴趣的问题是:可解释性工具能不能真正帮助我们理解长程 Agent 的失败?
这件事现在还没有答案。但如果未来要分析一个 Coding Agent 在长轨迹中为什么走偏,只看最终输出是不够的。我们可能需要更稳定、更可诊断的内部特征工具。
Note#
这篇工作仍在投稿和打磨中。网站上暂时只放一个简短介绍,不展开过多技术细节。