Justin Huang

Back

Width Can Kill Sensitivity

static page

一作投稿工作。研究 TopK Sparse Autoencoder 在语义保持改写下的特征稳定性和 rare feature sensitivity。

submission 2026 under submission first author
#mechanistic-interpretability#sparse-autoencoder#topk-sae#feature-sensitivity#neurips

Overview#

这是我的一作投稿工作,围绕 TopK Sparse Autoencoder 的 feature sensitivity 展开。

我关注的问题是:如果两个输入在语义上等价,只是表达方式有轻微变化,那么 SAE 中对应的可解释特征是否仍然稳定激活?

如果一个 feature 在语义保持改写下非常容易消失,那么它作为解释单元的可靠性就值得怀疑。

Core problem#

TopK SAE 会选择激活值最高的 K 个特征。这个离散选择过程带来一个问题:一些 rare feature 可能正好处在 TopK cutoff 附近。

当输入发生轻微 paraphrase 扰动时,这些 feature 可能被附近 competitor 挤出 active set。这样即使语义没有改变,feature activation 也可能变得不稳定。

Main idea#

这篇工作尝试诊断并修复 TopK SAE 中 rare feature 的 sensitivity 问题。

核心思路包括:

  • 用 meaning-preserving paraphrase 测量 feature sensitivity;
  • 观察宽字典下 rare feature 的稳定性变化;
  • 将问题诊断为 TopK boundary crowding;
  • 使用 pairwise rank stabilization 约束 source-active feature 在 paraphrase 中仍然维持相对排序。

Why I care#

这篇工作对我来说不仅是一篇可解释性论文,也是一次理解模型内部表征稳定性的尝试。

我现在更长期感兴趣的问题是:可解释性工具能不能真正帮助我们理解长程 Agent 的失败?

这件事现在还没有答案。但如果未来要分析一个 Coding Agent 在长轨迹中为什么走偏,只看最终输出是不够的。我们可能需要更稳定、更可诊断的内部特征工具。

Note#

这篇工作仍在投稿和打磨中。网站上暂时只放一个简短介绍,不展开过多技术细节。