第575章第一次我们在人工神经网络中发现了「真」神经元

作者:蔡泽禹 加入书签推荐本书

元的激发通常可以借助其对文本图像的响应来控制,从而为攻击该模型提供了一个简单的向量。

举例而言,金融神经元可以对存钱罐和货币符号串「$$$」做出响应。通过强制性地激活金融神经元,我们可以欺骗 clip 模型将一条狗分类为存钱罐。具体如下图所示:

openai 将这类攻击称为「typographic attack」。研究人员穷尽 clip 模型鲁棒性读取文本的能力,发现即使是手写文本图像也能骗过模型。如下图所示,在「史密斯奶奶」青苹果表面贴上写着「ipod」的纸张,系统将其错误分类为「ipod」。

研究人员认为这类攻击还可能以更微妙、不明显的形式出现。clip 的输入图像往往用多种细微复杂的形式进行抽象,这可能会对一些常见模式进行过度抽象——过度简化,进而导致过度泛化。

偏见和过度泛化

clip 模型基于精心收集的网络图像进行训练,但它仍然继承了许多未经检查的偏见与关联。研究人员发现 clip 中的许多关联是良性的,但也有一些关联会带来损害,如对特定个人或组织的贬损。例如,「middle east」(中东)神经元与恐怖主义存在关联,「immigration」(移民)神经元对拉丁美洲有反应,甚至有的神经元还对黑皮肤人群和大猩猩产生反应。这映射了早期其他模型中存在的图像标注问题,而这是不可接受的。

这些关联对此类强大视觉系统的应用提出了极大挑战。不管是经过微调还是使用零次学习,这些偏见和关联大概率仍会存在于系统中,而它们也将以可见或不可见的方式影响模型部署。我们或许很难预测很多带偏见的行为,如何度量和纠正它们是非常困难的事情。openai 认为这些可解释性工具可以提前发现关联和歧视,进而帮助从业者规避潜在的问题。

openai 表示他们对 clip 的理解仍在继续,而是否发布 clip 模型的大型版本尚属未知。

这一研究或许会对 ai 技术,甚至神经科学研究打开一条新路。「因为我们不了解神经网络运作的机制,因此很难理解它们出错的原因,」openai 的联合创始人、首席科学家 ilya sutskever 说道。「我们不知道它们是否可靠,或它们是否存在一些测试中未发现的漏洞。」

此外,openai 还发布了用于理解 clip 模型的工具,例如 openai microspe,它最近更新了 clip rn50x4 中每个神经元的特征可视化、数据集示例和文本特征可视化。

上一章 返回目录 下一章