【前沿学术】人类如何信任AI？朱松纯团队提出基于心智理论的可解释AI模型CX-ToM

转自：通院BIGAI

信任（trust）是人类在社会协作中的一种重要的心理状态，人与人之间只有达成了信任才能更好地展开合作，完成一人无法单独完成的任务。

在人与AI共处的时代，AI同样要与人类建立信任才能更好地帮助人类。这就要求AI在两个层次上获取人的信任：1、能力与性能：AI要让人类清晰地知道在什么条件下，可以完成哪些任务，达到什么样的性能。2、情感与价值：AI要与人类产生情感共鸣，保持相近的价值观，把人类的利益放在首要位置，与人类形成利益共同体。

想象一下，在一个川流不息的十字路口，你乘坐在一辆自动驾驶汽车上，其实是把自己的性命交给了它。当在行驶过程中，它突然要向左转，但是不告诉你为何要向左转，而不是直行或者右转，除非你100%信任它，否则你很难轻易地接受这个决定。令人遗憾的是，当今的自动驾驶连“能力与性能”的信任层次都达不到，更不用提“情感与价值”的信任层次。这是因为当前基于神经网络的AI算法是有偏见的，可解释性很差，本质上仍是个“黑盒子”，无法向人类解释为何做出特定的决策。这一缺陷是致命的，尤其是在自动驾驶、金融保险、医疗健康等AI决策能够产生重大影响、风险极高的领域。因此研究可解释人工智能（XAI）已经势在必行，其目的正是搭建人类和AI之间的信任桥梁。

近日，朱松纯教授团队在Cell子刊《iScience》上发表了题为《Counterfactual explanations with theory of-mind for enhancing human trust in image recognition models》的论文。

这篇论文提出了一个新的可解释AI框架CX-ToM，它将“心智理论（ToM）”和“反事实解释”（counterfactual explanations）集成到了单一的解释框架中，可以用于解释深度卷积神经网络（CNN）做出的决策，在图像识别模型中增强人类对神经网络的信任。

当前可解释AI框架倾向于在单轮对话中生成“解释”，是一锤子买卖，而本文的一大亮点则是将“解释”视为一种基于人机交互对话的多轮次通信过程。

图1 CX-ToM论文被Cell子刊《iScience》录用

论文作者：Arjun R. Akula, Keze Wang, Changsong Liu, Sari Saba-Sadiya, Hongjing Lu, Sinisa Todorovic, Joyce Chai, Song-Chun Zhu 论文地址：https://www.cell.com/iscience/fulltext/S2589-0042(21)01551-0朱松纯团队曾于2019年发表论文《X-ToM: Explaining with Theory-of-Mind for Gaining Justified Human Trust》。X-ToM模型使用心智理论（ToM）增加了人类对AI的信任，CX-ToM模型是在X-ToM模型的基础上最新融合运用了反事实解释（Counterfactual explanations）的概念，进一步增加了人类对AI的信任。 X-ToM论文地址：https://arxiv.org/abs/1909.06907

尽管基于大数据训练的神经网络模型在这两年已经发展到了成千上万亿的参数规模，但是其内部的演算机制仍然无法解释，在获取人类的信任方面效果甚微。而CX-ToM模型却能增加人类对图像识别神经网络的信任，这里的关键在于，CX-ToM模型将“反事实解释”（CX）和“心智理论（ToM）”集成融合到了单一的解释框架中，反事实解释和心智理论都是使得神经网络获取人类信任的功臣。下面分别对这两者做个介绍。

反事实解释

反事实解释是按以下形式描述了一种因果关系：“如果没有发生X，那么Y就不会发生。”例如：“如果我早上没有赖床，我上班就不会迟到了。”这里事件Y是上班迟到，原因之一是早上赖床。反事实就是想象一种与事实相矛盾的假设情况，然后再进行推理判断。

那么反事实解释如何应用在图像识别上面呢？

这就要提到本文的一大创新点——断层线（fault-lines）。断层线的意思是说，利用反事实解释，把一张图像语义层面的事实给否定掉，即用一组最小语义特征（称为可解释概念:Xconcepts）在原来图像的对应区域添加或删除可解释概念，使得原本被CNN模型识别类别为A的输入图像被重新识别为B。

如下图所示，通过添加“黑白相间的条纹”等斑马独有的可解释概念特征，原本被CNN模型识为马的图像被重新识别为了斑马，这里“黑白相间的条纹”就是一个语义特征。

图2 给马增加斑马独有的可解释概念特征后，被重新识别为了斑马

再例如，要想使一张“山羊”图像被重新识别为“绵羊”，可以添加“厚厚的羊毛”并同时删除山羊的“胡须和角”。因为人类在识别物体时往往也是抓住一组具有区分性的语义特征，如果神经网络也学会了这种识别方式，就会引起人类天生的好感，增加人类对其的信任。

心智理论

心智理论是指理解自己和他人心理状态（包括情绪、信仰、意图、欲望、假装与知识等）的能力，最早在心理学和认知科学中被研究，现已泛化到人工智能领域。心智理论在多智能体和人机交互环境中尤为重要，因为每个智能体都要理解其他智能体（包括人）的状态和意图才能更好地执行任务，其行为又会影响到其他智能体做出行为判断。

机器要想获取人类的信任，必须以沟通的方式向人类解释其每一步决策的意图。高效的解释不是一锤子买卖，而是一个人机交互的反复沟通过程。由于人类很容易被太多或太详细的解释所淹没，交互式沟通有助于机器理解人类并识别人类特定的解释内容。此外，认知研究表明，只有在机器充分考虑到人类的意图和信念后才能产生最佳的解释。

心智理论恰恰可以明确地建模人类的意图，在人机交互的对话中生成一系列解释，从而帮助机器揣摩人类的心智，减少机器和人类之间的认知思维差异，增加人类对机器的信任。

如下图所示，在使用心智理论推动人机交流的多轮次对话中，要考虑三个重要方面：（a）人类的意图，（b）人类对机器的理解，（c）机器对人类用户的理解。在一般环境下，机器和人分别知道一些独特的知识，和一些共有的知识；机器有自己的见解，人也有自己的见解，这个时候机器与人之间需要协作和交流，需要知己知彼，达成“共识”（下图蓝色椭圆和橙色椭圆的交集），即“你知道我是知道你知道的”。

图3 CX-ToM：基于心智理论的交互式和协作XAI框架是通过对话进行交互的。

这就像老师上课的时候需要一个摸底测试，他需要知道学生们哪些知识掌握了，哪些没有掌握；这样才能规划后面哪些知识需要讲，哪些知识不需要讲。机器对人有一个预判，人对机器也有一个预判，当这两个预判不准的时候，这个沟通就是无效的，是“鸡同鸭讲”，这时机器就无法获取人类的信任。

CX-ToM：反事实解释和心智理论的结合

人类具有强大的想象和思考能力，可以运用反事实解释将一张图像从类别A转换到类别B，但是这对机器而言却非常困难。因此人类要想办法通过一次次的互相沟通，教会机器学会这个反事实解释的过程，心智理论在这里就派上了用场。

下图是基于心智理论的断层线选择过程示例图。下图上方有一张被CNN模型正确识别的鹿的图像，但是仔细观察会发现，这张图像被CNN模型预测识别出的类型还有袋鼠和斑马。也许你会说，图像里的这张鹿是站立着的，身躯又是黄褐色的，如果不看鹿角只看身躯，倒也和袋鼠有些相似，CNN模型做出这样的预测情有可原，但是被预测成斑马则差的有些离谱。事后猜测一番，或许CNN模型把鹿背后的草原环境当作一个相关联的识别项了，可能在训练数据集中有很多斑马的图片，而斑马总是身处草原的环境中，因此CNN模型看到草原后“联想”起了斑马。这些都表明了神经网络是“黑盒”性质的，可解性很差，只会盲目地在一堆预测类别中选择可能性最高的那个。

图4 基于心智理论的断层线选择过程示例图

所以，人类用户就要询问机器（这里指CX-ToM模型）：“为什么这张图被识别成鹿而不是袋鼠？”这时机器就要根据断层线解释来回答用户为何做出相应的推理和预测，之后用户验证机器的预测，如果用户对机器的回答不满意，则可以接着询问，直到机器选择出一组最优断层线解释使得用户满意。

给定一个输入图像和两个输出类别，断层线能够显示出影响图像分类结果的最重要特征或属性。而当存在数千个输出类别时，人类用户无法在所有可能的输出“类别对”之间构建断层线，来验证模型的推理。因此，对于模型来说，自动选择出最重要的“类别对”来构建断层线解释非常重要，这样人类用户才能快速了解模型的优缺点。

CX-ToM模型通过结合有助于明确跟踪人类用户意图的心智理论框架解决了这个问题。尽管最近也有一些关于生成像素级反事实和对比解释的工作，但本文是第一个提出同时具有多轮次生成、反事实和概念解释方法的工作。

过往的研究表明，信任与可理解性（人类用户对AI系统的理解程度）和可预测性（在特定任务上预测系统性能的准确程度），密切且正相关。因此，人类在开发可解释AI系统时，要通过向人类用户提供有关系统预测的解释来提高可理解性和可预测性。当前有很多基于注意力机制的可解释AI工作，但是它们都不足以提高可理解性和可预测性，获取不了人类的信任。而本文提出的CX-ToM模型在这方面做的很好，这两点在本文的实验中得到了验证。

在实验环节中，研究人员招募了60名计算机视觉背景（具有丰富的使用CNN训练图像分类模型的经验）的专家用户，以及150名没有计算机视觉背景（且没有其他AI领域背景）的非专家用户。

研究人员使用定性和定量的评估指标，展开CX-ToM模型与其他基线模型的对比实验。结果表明，无论是专家用户还是非专家用户都认为，在基于心智理论的人机交互对话的环境下，他们和机器进行多轮次沟通，机器每一次越来越优的反馈结果都能引起用户的好感；与此同时，断层线解释给出的充分详细、可理解的结果，能够帮助用户更深入地理解神经网络模型是怎么做出图像分类识别的，增加对其的信任。

以上实验结果都表明，CX-ToM模型增加了人类对机器的信任，且明显优于基线模型。这为神经网络获取人类的信任迈进了一大步。

【前沿学术】人类如何信任AI？朱松纯团队提出基于心智理论的可解释AI模型CX-ToM

反事实解释

心智理论

发表评论取消回复

访问统计

【前沿学术】人类如何信任AI？朱松纯团队提出基于心智理论的可解释AI模型CX-ToM

反事实解释

心智理论

相关推荐

发表评论 取消回复

访问统计

发表评论取消回复