Information Fusion:GPT-4V with Emotion(下篇)论文链接:https://arxiv.org/pdf/2312.04293.pdf代码链接:https://github.com/zeroQiaoba/gpt4v-emotionGPT-4V with Emotion(上篇):https://mp.weixin.qq.com/s/yPirDU6bxAA-UoEwnFzKkQ论文作者:连政1、孙立才1、孙海洋1、陈康2、温卓凡1、顾浩1、刘斌1、陶建华3
单位:1中国科学院自动化研究所,2北京大学,3清华大学
摘要
最近,GPT-4V在多种任务上展现出了卓越的能力,但其在情感识别方面的表现尚未得到充分验证。为此,本文展示了GPT-4V在21个基准情感数据集上的定量评估结果,涵盖6个任务:视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。本文将这些任务统称为“广义情感识别(GER)”。通过实验分析,我们发现GPT-4V在GER任务中表现出了强大的视觉理解能力。与此同时,GPT-4V显示出了多模态融合以及时序建模能力。然而,目前GPT-4V主要适用于通用领域,在需要专业知识的微表情识别任务上性能不佳。本文提供了GPT-4V在GER任务中的首个定量评估结果。我们已经开源了代码,并希望后续的研究者拓展评估范围,囊括更多任务和更多数据集。
引言
情感因其在人机交互中的重要性引起了研究人员的广泛关注。当前情感识别研究主要集中在两个层面:一个是识别外部刺激诱发的情感;另一个是分析人类通过各种模态传达的情感。我们将这些任务统称为“广义情感识别”。情感与视觉、听觉、文本等信息密切关联。其中,视觉信息(如色彩、亮度、表情、行为等)包含了丰富的情感关联成分。最近,GPT-4V在各种任务中展示出了强大的视觉理解能力。那么,GPT-4V能否在一定程度上解决GER问题?如果可以,那么在GPT-4V出现后,情感计算领域未来需要关注的方向是什么?在2023年9月,GPT-4V被整合到了ChatGPT中。当时,OpenAI尚未发布GPT-4V API,用户只能手动上传测试样本。由于需要大量人力,当时的评测报告通常只为每个任务选择有限数量的样本,仅提供了GPT-4V的定性评估结果。在2023年11月,OpenAI发布GPT-4V API,但限制每天只能访问100次,依然很难在基准数据集上比较GPT-4V与目前最先进系统的性能差距。2023年12月,OpenAI增加了每日限额,使我们能够进行更全面的评估。在本文中,我们提供了GPT-4V在GER任务上的定量评估结果,涵盖了视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。图1显示了GPT-4V的整体结果。我们还展示了随机猜测和监督系统的结果。为了公平比较,我们在基准数据集上进行评估,并使用了一致的评估指标。整体上,GPT-4V优于随机猜测,但仍落后于监督系统。为了找出背后的原因,我们进一步对GPT-4V的多方面能力进行了分析,包括多模态融合、时间建模、鲁棒性、稳定性等。
图1 GPT-4V在GER任务上的定量评估结果
任务描述
我们详细描述了每个任务的评估数据集。本次评测涵盖6种GER任务共计21个基准数据集。表1汇总了不同数据集的统计信息。为了与监督系统公平比较,我们在官方测试集上评估性能,并选择最常用的评估指标。图 2展示了数据类型的多样性。一些数据集是面向自然场景的(如AffectNet),而另一些是实验室环境下的(如CASME和CK+)。同时,不同数据集存在色彩空间差异。一些数据集使用灰度图像(如CK+),而另一些使用RGB图像(如CASME和AffectNet)。不同数据集的预处理过程详见原始论文。

图2 评测数据样例
GPT-4V调用策略
本文评估了GPT-4V API,即“gpt-4-vision-preview”的性能。GER任务涉及多种模态,包括图像、文本、视频、音频。然而,GPT-4V只支持图像和文本。为了处理视频,我们对视频进行采样将其转换为多张图像。为了处理音频,我们尝试将音频转换为梅尔频谱图。然而,GPT-4V未能基于梅尔频谱图生成正确的响应。因此,本文主要关注图像、文本、视频。在本节中,我们为GER任务设计了专门的调用策略,包含batch-wise、repeated和recursive调用模块。具体伪代码详见算法1。(1) Batch-wise CallingGPT-4V API有三个请求限制:每分钟的token数(TPM)、每分钟的请求数(RPM)和每天的请求数(RPD)。为了满足RPM和RPD,我们采用batch-wise输入。具体而言,我们将多个样本同时输入,并在一次请求中生成所有结果。然而,batch size太大可能导致token总数超过TPM限制。此外,它增加了任务难度,可能导致不正确的响应结果。因此,我们将图像的batch size设置为20,视频的batch size设置为6,以同时满足TPM、RPM和RPD的限制。(2) Repeated CallingGER任务经常触发安全检查,导致GPT-4V拒绝提供回复。这主要是因为GER任务包含视觉情感分析和人类情感识别。前者包含暴力和血腥的图像。在后者,人类身份也被视为敏感信息。为了减少拒识情况,我们要求GPT-4V忽略身份信息,但它仍会触发安全检查。有趣的是,这些错误有时是比较随机的。例如,尽管所有图像都是以人为中心,但有些通过了安全检查,而有些则未通过。或者,一个样本可能最初未通过检查,但在重试后通过了。因此,我们对拒识批次进行多次重复调用,直到调用次数上限。(3) Recursive Calling在评估过程中,我们发现批次输入可能会触发安全检查,但将其拆分为更小的批次有时可以通过检查。因此,对于持续拒识的批次,我们将其分成两个较小的批次,然后分别将它们输入GPT-4V中获取相应。(4) 组合策略我们的策略结合了批次调用、重复调用和递归调用。更多细节详见算法1。正确的响应需要满足两个条件。首先,它不应触发安全检查。其次,它应包含正确数量的预测结果。
算法1 GPT-4V调用策略
结果与分析
本文从三个层面进行结果分析:数据集层、情感类别层和样本层。我们仅展示部分实验结果。完整的分析报告详见原始论文。(1)数据集层表3展示了视觉情感分析的结果。我们观察到GPT-4V在大多数数据集上优于监督系统。这归因于GPT-4V强大的视觉理解能力,加上其推理能力,使得GPT-4V能够准确推断出图像诱发的情感状态。但对于微表情识别(见表4),GPT-4V表现不佳,甚至有时比随机猜测更差。这些结果表明,GPT-4V主要为通用领域设计。它不适用于需要专业知识的微表情识别。表5~8展示了推文情感分析、多模态情感识别、面部情感识别和动态面部情感识别的结果。为了处理视频,我们对视频进行均匀采样,并将这些采样图像按顺序输入GPT-4V。为了降低调用成本,我们最多采样三帧。实验结果表明,尽管GPT-4V与监督系统之间仍然存在着性能差距,但GPT-4V显著优于启发式基线,显示了其在情感识别任务中的潜力。






局限与未来工作
在本节中,我们总结了GPT-4V的主要挑战和局限性,并讨论了未来可能的研究方向。(1)性能。在GER任务中,GPT-4V优于启发式基线,但仍落后于监督系统。这可能是由于情感定义的模糊性。未来,我们计划使用少样本提示来提升任务清晰度和GPT-4V的情感理解能力。(2)模态。GPT-4V不支持音频输入。然而,音频可以通过副语言信息(如基频、时长、能量)传达情感。为了更好地理解情感,GPT-4V应在未来支持音频输入。或者,我们可以使用外部模型将音频转换为文本描述,并将其作为GPT-4V的额外输入。(3)领域差距。GPT-4V主要针对通用领域,在需要专业知识的微表情任务中表现不佳。对于未来工作,我们建议后续研究人员可以尝试在提示设计中提供更清晰的关于微表情的定义。(4)系统稳定性。GPT-4V表现出一定的不稳定性,即可能为同一个样本在多次调用中预测为不同的标签。因此,GPT-4V应在未来提升其系统稳定性。或者,后续工作应多次调用GPT-4V,并使用多数投票来获取最终结果。(5)安全检查稳定性。GPT-4V在安全检查中表现出不稳定性。具体来说,一个样本可能未通过安全检查,但重试后通过了安全检查。为此,我们在本文中设计了一个更实用的调用策略。未来,GPT-4V应增强其安全检查系统的稳定性。
总结
本文对GPT-4V在GER任务中进行了全面评估。我们的评估结果表明,GPT-4V表现出强大的视觉理解能力,在通用情感识别任务中取得了不错的结果。然而,在需要专业知识的微表情识别任务表现不佳。本文还展示了GPT-4V的时序建模和多模态融合能力,以及其对颜色空间和提示模板变化的鲁棒性。此外,我们评估了其预测结果的一致性和安全检查系统的稳定性,并可视化错误案例以揭示其在情感理解方面的局限性。我们希望本次评测结果能够对情感计算领域的研究学者有所启发。引用信息:Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Bin Liu, Jianhua Tao. “GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding”. Information Fusion 2024.
作者简介

连政,助理研究员,2021年于中科院自动化研究所模式识别与智能系统专业获得工学博士学位。2021年7月至今在中科院自动化所工作。研究方向为情感计算。个人主页:https://zeroqiaoba.github.io/Homepage/

刘斌,副研究员,硕士生导师。2007年毕业于北京理工大学获得学士学位,2009年毕业于北京理工大学获得硕士学位,2015年于中科院自动化研究所模式识别与智能系统专业获得博士学位。2015年7月至今在中科院自动化所工作。研究方向为情感计算、音频处理等。

陶建华,清华大学长聘教授、博士生导师,国家杰出青年科学基金获得者,国家万人计划科技创新领军人才,享受国务院政府特殊津贴人员。完成多项国家和国际标准,论文和成果曾多次获国内外学术会议奖励。兼任中国计算机学会会士和常务理事、中国人工智能学会常务理事等职务。