络解释的研究基础上,该研究首先观察到许多经典方法可以直接应用于 clip。openai 使用两种工具来理解模型的激活,分别是特征可视化(通过对输入进行基于梯度的优化来最大化神经元的激活)和数据集示例(观察数据集中神经元最大激活图像的分布)。
通过这些简单的方法,openai 发现 clip rn50x4(resnet-50 利用 efficientnet 扩展规则扩增 4 倍)中的大多数神经元都可以得到解释。这些神经元似乎是「多面神经元」的极端示例,它们只在更高层次的抽象上对不同用例做出响应。
例如,对于夏季和冬季两个不同季节,文本、人脸、logo、建筑物、室内、自然和姿态等表现出了不同的效果:
对于美国和印度两个不同国家,文本、人脸、logo、建筑物、室内、自然和姿态等也呈现出了不同的效果:
openai 惊奇地发现,其中很多类别似乎是利用颅内深度电极记录的癫痫患者内侧颞叶中的镜像神经元,包含对情绪、动物和名人做出反应的神经元。
然而,openai 对 clip 的研究发现了更多这类奇怪但绝妙的抽象,包括似乎能计数的神经元、对艺术风格做出响应的神经元,甚至对具有数字修改痕迹的图像做出响应的神经元。
多模态神经元的构成是怎样的
这些多模态神经元能够帮助我们理解 clip 如何执行分类。使用一个稀疏线性探针即可以很容易地查看 clip 的权重,从而了解哪些概念结合在一起实现了 imagenet 数据集上的最终分类。
如下图所示,存钱罐似乎是由一个「finance」神经元和瓷器(porcelain )神经元组成的。「spider-man」神经元也表现为一个蜘蛛检测器,并在「谷仓蜘蛛」(barn spider)的分类中发挥重要作用。
对于文本分类,openai 的一个关键发现是,这些概念以类似于 word2vec 目标函数的方式包含在神经元中,它们几乎是线性的。因此,这些概念构成了一个单代数,其行为方式类似于线性探针。通过线性化注意力,我们也可以像线性探针那样检查任意句子,具体如下图所示:
clip 的抽象化程度揭示了一种新的攻击向量(vector of attack),openai 认为这种向量并未在以往的系统中表现出来。和很多深度网络一样,模型最高层上的表征完全由这类高级抽象控制。但是,区分 clip 的关键在于程度(degree),clip 的多模态神经元能够在文字和符号之间实现泛化,而这可能是一把双刃剑。
通过一系列精心设计的实验,openai 证明了可以利用这种还原行为来欺骗模型做出荒谬的分类。此外,openai 观察到,clip 中神经