人机协作,群体智慧辨别虚假视频
Deepfake生成的虚假图片和视频,普通人能够分辨吗?PNAS上刊登的新研究,通过大人群在线实验,指出普通人分辨虚假视频的能力,和机器学习模型不相上下,而两者合作后,效果更佳。这一研究,进一步指出可使用群体智慧应对虚假信息。
眼见未必为实。在英剧“真相捕捉”中,监控影像被修改,而这并不是影视的虚构。为了探讨如何更好的应对虚假视频带来的问题。2019-2020年间,亚马逊,脸书和谷歌共同在机器学习平台Kaggle上,设置百万美元奖金,以找到能以最高精度检测虚假视频的机器学习算法。而参赛的算法的平均判别准确率约为65%,最优的算法,也没有超过80%。
Deep fake的换脸视频,其和真实视频,难免会在背景,光照等细节上,和真实视频有所不同。然而一般认为普通人并不擅长捕捉这些细微的差异,因此应对虚假信息,应该使用机器学习模型。但是人相比机器算法,对脸部的表情差异更加敏锐,这为人类在判别虚假视频这一任务上,加分不少。
为了考察普通人能否判断视频的虚假,在有882人参与的,重复至少10次的二选一(两个视频片段,判断那个是真的)实验中,82%的参与者的准确度,大于机器学习模型的平均值。在被对比的56组视频中,28组被超过83%的受试者成功判别;16组被65%-82%的受试者成功判别;9组被50-65%的受试者成功判别,只要3组,正确判别的受试者比例小于50%。
在第二项实验中,总计9492名,大部分在网上招募的受试者,给出一个视频是真实的可信度打分,总计打分7.4余万次。结果发现,相比机器学习模型,人类受试者的表现(蓝色和黄色),都略低于机器学习模型。其中13% 到37% 的普通人的表现,优于领先的深度学习虚假视频检测模型。然而,将众人给出的可信度打分平均后,其方差变小,且准确度达到甚至超过了机器学习模型。这说明可通过群体智慧,判别视频真假。
人类参与者在两种实验中的表现的小提琴图,实验二中的R代表招募的参与者,他们必需每人完成20次实验,共9492人,NR代表的网络参与者,可以完成任意次实验,共计67647人。
该研究还让人机可以协作,来判断虚假视频。当受试者在二选一的实验中,做出选择后,可以看到机器学习模型做出的判别,并据此决定是否改主意,受试者的判断准确率从66%提高到73%。从下图展示的ROC曲线中,可以看到最好的机器学习模型(红线),群体智慧(众人的平均值,蓝线)和知道机器预测结果的普通人的均值(绿线),可以看到,人机协作后,对虚假视频的判断能力最优。
不同方法识别虚假视频准确度的ROC曲线
当机器的预测是正确的时候,对人类预测者的提升最明显,而当模型的预测不准确或者不确定时,则反而会降低人类受试者的预测准确性,如下图所示:
模型预测是正确,错误或模棱两可时,人类受试者改变决定后,判别准确度的改变(横轴)的概率密度(纵轴为这样视频出现的次数)
面对机器学习模型给出的错判,人们往往会受其影响而歧路亡羊。对此,一个预期更有效的人机协作方案,是打破机器学习模型的黑箱,让模型不止告诉人类其做出了什么判断,还高亮是基于那些特征做出的判断。类似的,也可以通过展示深度学习模型不同层级提取的特征等方式,使用高解释度模型,来进行人机协作。
视频是异构的、高维度的媒体,因此,必然在某些场景下,人类受试者表现更好,例如对政治人物的视频,由于人类的背景知识,其准确度更好,或是当视频中出现两人而不是一人时,机器学习模型在这样变化的环境中会表现不佳。但在在一些场景下,例如视频不够清晰或背景较暗时,机器学习模型的判别更准确。此外,当人类受试者,在判别前被导向愤怒的情绪时,其判断虚假视频的能力也会降低。
该研究尽管是在实验室环境中,其虚假信息的比例,判别场景,都不同于真实的媒体环境。但其初步结论,指出内容审核的决策支持工具必须经过仔细设计,以适当权衡人类和模型的预测。未来基于群体智慧的虚假信息检测的研究,需要考虑如何以最有效地方式,聚合众人和机器的智慧,例如采用算法设定人机协作的流程。
归根到底,判断视频的真假,涉及的问题远远超过视觉处理,因此人类相对机器的优势,也不仅仅是对脸部特征的敏感性。当人们试图从谎言中辨别真相时,他们依赖于了解到的关于世界的常识,他们的批判性推理能力,以及他们学习和更新信念的能力。这些都可用于未来的人机合作判别虚假视频中。
更多阅读