详情

首页手游攻略 条条电路通罗马:大模型可解释性的唯一机制或许从一开始便不存在

条条电路通罗马:大模型可解释性的唯一机制或许从一开始便不存在

佚名 2026-07-01 08:20:52



长期以来,机制可解释性(mechanistic interpretability)领域有一个几乎从未被明说、却被视为理所当然的前提:模型对于同一种任务的能力或表现,背后对应着一条唯一的、或近乎唯一的内部「电路」(circuit)。该领域的研究者们之所以要做「电路发现」(circuit discovery),是为了要把这些「特定的」电路找出来。
但一篇被 ICML 2026 接收的新论文给出了一个让人不太舒服的答案:「唯一电路」可能从一开始就不存在。 同一个任务,可以由许多结构上几乎完全不重叠、却有着同样高任务能力、稀疏、完备的电路独立完成。论文把这个被长期默认的前提命名为「功能各向异性假说」(Functional Anisotropy Hypothesis),并从实验与理论两种路径,系统性地把它推翻了。

一个被默认了很久,却从未被言明的假设

近几年,circuit 与 sheaf 发现(Circuit and Sheaf Discovery,简称 CSD)成了机制可解释性(Mechanistic Interpretability)里最热门的方向之一。它的目标很直接:把大模型这个「黑盒」打开,找出模型在表现出某种能力时,内部到底是哪些组件(注意力头、MLP)以及它们之间的哪些连接(作为残差流信息传递通道)在真正起作用。

这里有两个相关但不完全相同的概念。circuit 指的是在干预下因果相关的计算子图;而 DiscoGP 提出的 sheaf,要求更严格:它不仅要因果相关,还必须能在独立运行(被剪枝的边只能传递被全部置零的激活值)时独立支撑起任务表现。

点击查看更多
推荐专题
热门阅读