Width Can Kill Sensitivity • Justin Huang

一作投稿工作。研究 TopK Sparse Autoencoder 在语义保持改写下的特征稳定性和 rare feature sensitivity。

submission 2026 under submission first author

#mechanistic-interpretability#sparse-autoencoder#topk-sae#feature-sensitivity#neurips

Overview#

这是我的一作投稿工作，围绕 TopK Sparse Autoencoder 的 feature sensitivity 展开。

我关注的问题是：如果两个输入在语义上等价，只是表达方式有轻微变化，那么 SAE 中对应的可解释特征是否仍然稳定激活？

如果一个 feature 在语义保持改写下非常容易消失，那么它作为解释单元的可靠性就值得怀疑。

TopK SAE 会选择激活值最高的 K 个特征。这个离散选择过程带来一个问题：一些 rare feature 可能正好处在 TopK cutoff 附近。

当输入发生轻微 paraphrase 扰动时，这些 feature 可能被附近 competitor 挤出 active set。这样即使语义没有改变，feature activation 也可能变得不稳定。

这篇工作尝试诊断并修复 TopK SAE 中 rare feature 的 sensitivity 问题。

核心思路包括：

这篇工作对我来说不仅是一篇可解释性论文，也是一次理解模型内部表征稳定性的尝试。

我现在更长期感兴趣的问题是：可解释性工具能不能真正帮助我们理解长程 Agent 的失败？

这件事现在还没有答案。但如果未来要分析一个 Coding Agent 在长轨迹中为什么走偏，只看最终输出是不够的。我们可能需要更稳定、更可诊断的内部特征工具。

这篇工作仍在投稿和打磨中。网站上暂时只放一个简短介绍，不展开过多技术细节。