无论是字面上、符号上还是概念上的表达,这种神经元都会对相同的概念做出反应。
openai 的研究者们在人工神经网络 clip 上发现了「真」神经元,这种机制解释了 ai 模型对令人惊讶的视觉呈现进行分类时,为何拥有如此的准确性。研究人员表示,这是一项重要发现,可能对计算机大脑乃至人类大脑的研究产生重大影响。
这或许意味着通用人工智能距离我们并没有想象的那么远。但理解了抽象概念的神经元,却也会做出一些令人啼笑皆非的理解。
15 年前,quiroga 等人发现人脑中包含多模态神经元。这些神经元能够对围绕常见高级主题的抽象概念簇产生反应,而不是任意特定的视觉特征。其中最著名的神经元当属 halle be
y 神经元,它能够对美国女演员「哈莉·贝瑞」的照片、图像和文本产生反应。
今年 1 月初,openai 提出了一种通用视觉系统 clip,其性能媲美 resnet-50,并在一些有挑战性的数据集上超过现有的视觉系统。给出一组以语言形式表述的类别,clip 能够立即将一张图像与其中某个类别进行匹配,而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。
最近,openai 又有了一个惊人发现:clip 模型中出现了多模态神经元!这类神经元能够对以文本、符号或概念形式呈现的相同概念作出反应。例如「spider-man」神经元(类似 halle be
y 神经元)能够对蜘蛛图像、文本「spider」的图像和漫画人物「蜘蛛侠」做出响应。
在 clip 模型中发现的神经元具备与人脑中 halle be
y 神经元类似的功能,相比之前的人工神经元有所进步。
这一发现为合成视觉系统与自然视觉系统中的普遍机制——抽象提供了线索。研究人员发现 clip 的最高层将图像组织为 idea 的松散语义集合,从而为模型的通用性和表示的紧凑性提供了简单解释。
openai 表示:这一发现或许可以解释 clip 模型的分类准确率,也是理解大型语言模型在训练过程中学习到的关联和偏见的重要一步。
那么,clip 中的多模态神经元到底是什么样子呢?openai 研究人员利用可解释性工具进行了探究,发现 clip 权重内的高级概念包含很多人类视觉词汇,如地区、面部表情、宗教图像、名人等。通过对神经元影响力的探究,我们可以更加了解 clip 如何执行分
clip 中的多模态神经元
opanai 的论文《multimodal neurons in artificial neural networks》建立在近十年来对卷积网