人们通常认为,随着AI系统的复杂性增加,它的解释性总是越来越差。但是研究人员已经开始使用Facebook的Captum之类的库来挑战这一概念,该库通过深度学习框架PyTorch以及IBM的AI Explainability 360工具包和Microsoft的InterpretML来解释神经网络做出的决策。为了使AI的决策更加透明,来自Google和Stanford的团队最近探索了一种机器学习模型- 基于概念的自动解释(ACE) -可自动提取“具有人类意义的”视觉概念,从而告知模型的预测。
正如研究人员在详细说明其工作的论文中解释的那样,大多数机器学习解释方法都会更改各个特征(例如,像素,超像素,词向量),以近似每个特征对目标模型的重要性。这是一种不完善的方法,因为即使输入中的最小变化,它也很容易受到攻击。
相比之下,ACE在提取概念并确定每个概念的重要性之前,通过将训练有素的分类器和班级中的一组图像作为输入来识别更高级别的概念。具体来说,ACE将具有多种分辨率的图像进行分割,以捕获纹理,对象部分和对象的多个级别,然后再将相似的片段分组为同一概念的示例并返回最重要的概念。
为了测试ACE的鲁棒性,该团队使用了Google的Inception-V3图像分类器模型,该模型在流行的ImageNet数据集上进行了训练,并从数据集中的1,000个类别中选择了100个类别的子集来应用ACE。他们指出,标记为重要的概念倾向于遵循人类的直觉,例如,执法徽标对于侦察警车比地面上的沥青更为重要。但是,情况并非总是如此。在一个不太明显的例子中,预测篮球图像的最重要概念是球员的球衣而不是篮球。当谈到轮播的分类时,游乐设施的灯光比其座位和电线杆具有更大的摇摆力。
研究人员承认,ACE绝不是完美的-它难以有效地提取异常复杂或困难的概念。但是他们认为,它提供的对模型的学习关联的见解可能会促进机器学习的更安全使用。
“我们通过人类实验验证了意义和一致性,并进一步验证了它们确实携带了显着信号进行预测。[我们的]方法…自动将输入功能分组为高级概念;这些有意义的概念作为连贯的示例出现,对于正确预测图像中存在的图像非常重要。”研究人员写道。“发现的概念揭示了该模型已获悉的潜在令人惊讶的关联的见解。”