探索AI医疗新未来:鸟瞰转型与主动健康的颠覆性力量?
AI医师助手

探索AI医疗新未来:鸟瞰转型与主动健康的颠覆性力量?

这篇文章聚焦于数字健康、AI辅助医学和远程医疗等前沿技术的应用,阐述了生成式AI与LLMs的快速发展如何推动医学专科和主动健康的创新,并通过国际专家交流提供深入探讨。议题将侧重于实例研究和未来展望,旨在揭示AI在医疗转型中的关键作用,以及GPT-AI在主动健康中的极致应用和价值。通过开场讲座,避开抽象讨论,直接以具体案例开启对AI在医疗领域广泛应用的全面探索。
🎉掌握AI绘画秘籍!探索「画宇亩」全功能指南,创作你的小镇美食绘本.now?
AI助手资讯

🎉掌握AI绘画秘籍!探索「画宇亩」全功能指南,创作你的小镇美食绘本.now?

本文介绍了多个AI绘画工具,如「画宇亩 (Nolibox Creator)」、360智脑大模型和视觉中国AI灵感绘图功能,以及Zoom引入的生成式AI新功能。文章以「小镇美食家」为主题展示了如何使用ChatGPT和Midjourney等工具完成绘本创作,并提供了全面的学习教程。同时,提到了创业建议,如从论文入手学习、实践操作和重视常规营销渠道。最后,通过清华大学发布的报告综述了AIGC的发展历程和前景,以及Dora产品的最新进展。
论文速递丨融合情感的GPT-4V(下篇)
AI情感助手

论文速递丨融合情感的GPT-4V(下篇)

Information Fusion:GPT-4V with Emotion(下篇)论文链接:https://arxiv.org/pdf/2312.04293.pdf代码链接:https://github.com/zeroQiaoba/gpt4v-emotionGPT-4V with Emotion(上篇):https://mp.weixin.qq.com/s/yPirDU6bxAA-UoEwnFzKkQ论文作者:连政1、孙立才1、孙海洋1、陈康2、温卓凡1、顾浩1、刘斌1、陶建华3 单位:1中国科学院自动化研究所,2北京大学,3清华大学 摘要  最近,GPT-4V在多种任务上展现出了卓越的能力,但其在情感识别方面的表现尚未得到充分验证。为此,本文展示了GPT-4V在21个基准情感数据集上的定量评估结果,涵盖6个任务:视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。本文将这些任务统称为“广义情感识别(GER)”。通过实验分析,我们发现GPT-4V在GER任务中表现出了强大的视觉理解能力。与此同时,GPT-4V显示出了多模态融合以及时序建模能力。然而,目前GPT-4V主要适用于通用领域,在需要专业知识的微表情识别任务上性能不佳。本文提供了GPT-4V在GER任务中的首个定量评估结果。我们已经开源了代码,并希望后续的研究者拓展评估范围,囊括更多任务和更多数据集。 引言  情感因其在人机交互中的重要性引起了研究人员的广泛关注。当前情感识别研究主要集中在两个层面:一个是识别外部刺激诱发的情感;另一个是分析人类通过各种模态传达的情感。我们将这些任务统称为“广义情感识别”。情感与视觉、听觉、文本等信息密切关联。其中,视觉信息(如色彩、亮度、表情、行为等)包含了丰富的情感关联成分。最近,GPT-4V在各种任务中展示出了强大的视觉理解能力。那么,GPT-4V能否在一定程度上解决GER问题?如果可以,那么在GPT-4V出现后,情感计算领域未来需要关注的方向是什么?在2023年9月,GPT-4V被整合到了ChatGPT中。当时,OpenAI尚未发布GPT-4V API,用户只能手动上传测试样本。由于需要大量人力,当时的评测报告通常只为每个任务选择有限数量的样本,仅提供了GPT-4V的定性评估结果。在2023年11月,OpenAI发布GPT-4V API,但限制每天只能访问100次,依然很难在基准数据集上比较GPT-4V与目前最先进系统的性能差距。2023年12月,OpenAI增加了每日限额,使我们能够进行更全面的评估。在本文中,我们提供了GPT-4V在GER任务上的定量评估结果,涵盖了视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。图1显示了GPT-4V的整体结果。我们还展示了随机猜测和监督系统的结果。为了公平比较,我们在基准数据集上进行评估,并使用了一致的评估指标。整体上,GPT-4V优于随机猜测,但仍落后于监督系统。为了找出背后的原因,我们进一步对GPT-4V的多方面能力进行了分析,包括多模态融合、时间建模、鲁棒性、稳定性等。 图1 GPT-4V在GER任务上的定量评估结果 任务描述  我们详细描述了每个任务的评估数据集。本次评测涵盖6种GER任务共计21个基准数据集。表1汇总了不同数据集的统计信息。为了与监督系统公平比较,我们在官方测试集上评估性能,并选择最常用的评估指标。图 2展示了数据类型的多样性。一些数据集是面向自然场景的(如AffectNet),而另一些是实验室环境下的(如CASME和CK+)。同时,不同数据集存在色彩空间差异。一些数据集使用灰度图像(如CK+),而另一些使用RGB图像(如CASME和AffectNet)。不同数据集的预处理过程详见原始论文。表1 数据集统计量:测试样本量、评价指标、以及数据集候选标签 图2 评测数据样例 GPT-4V调用策略 本文评估了GPT-4V API,即“gpt-4-vision-preview”的性能。GER任务涉及多种模态,包括图像、文本、视频、音频。然而,GPT-4V只支持图像和文本。为了处理视频,我们对视频进行采样将其转换为多张图像。为了处理音频,我们尝试将音频转换为梅尔频谱图。然而,GPT-4V未能基于梅尔频谱图生成正确的响应。因此,本文主要关注图像、文本、视频。在本节中,我们为GER任务设计了专门的调用策略,包含batch-wise、repeated和recursive调用模块。具体伪代码详见算法1。(1) Batch-wise CallingGPT-4V API有三个请求限制:每分钟的token数(TPM)、每分钟的请求数(RPM)和每天的请求数(RPD)。为了满足RPM和RPD,我们采用batch-wise输入。具体而言,我们将多个样本同时输入,并在一次请求中生成所有结果。然而,batch size太大可能导致token总数超过TPM限制。此外,它增加了任务难度,可能导致不正确的响应结果。因此,我们将图像的batch size设置为20,视频的batch size设置为6,以同时满足TPM、RPM和RPD的限制。(2) Repeated CallingGER任务经常触发安全检查,导致GPT-4V拒绝提供回复。这主要是因为GER任务包含视觉情感分析和人类情感识别。前者包含暴力和血腥的图像。在后者,人类身份也被视为敏感信息。为了减少拒识情况,我们要求GPT-4V忽略身份信息,但它仍会触发安全检查。有趣的是,这些错误有时是比较随机的。例如,尽管所有图像都是以人为中心,但有些通过了安全检查,而有些则未通过。或者,一个样本可能最初未通过检查,但在重试后通过了。因此,我们对拒识批次进行多次重复调用,直到调用次数上限。(3) Recursive Calling在评估过程中,我们发现批次输入可能会触发安全检查,但将其拆分为更小的批次有时可以通过检查。因此,对于持续拒识的批次,我们将其分成两个较小的批次,然后分别将它们输入GPT-4V中获取相应。(4) 组合策略我们的策略结合了批次调用、重复调用和递归调用。更多细节详见算法1。正确的响应需要满足两个条件。首先,它不应触发安全检查。其次,它应包含正确数量的预测结果。 算法1 GPT-4V调用策略 结果与分析 本文从三个层面进行结果分析:数据集层、情感类别层和样本层。我们仅展示部分实验结果。完整的分析报告详见原始论文。(1)数据集层表3展示了视觉情感分析的结果。我们观察到GPT-4V在大多数数据集上优于监督系统。这归因于GPT-4V强大的视觉理解能力,加上其推理能力,使得GPT-4V能够准确推断出图像诱发的情感状态。但对于微表情识别(见表4),GPT-4V表现不佳,甚至有时比随机猜测更差。这些结果表明,GPT-4V主要为通用领域设计。它不适用于需要专业知识的微表情识别。表5~8展示了推文情感分析、多模态情感识别、面部情感识别和动态面部情感识别的结果。为了处理视频,我们对视频进行均匀采样,并将这些采样图像按顺序输入GPT-4V。为了降低调用成本,我们最多采样三帧。实验结果表明,尽管GPT-4V与监督系统之间仍然存在着性能差距,但GPT-4V显著优于启发式基线,显示了其在情感识别任务中的潜力。(2)时序建模能力分析为了减少GPT-4V的调用成本,本文限制每个视频最多采样三帧。在本节,我们进一步分析了采样数量的影响。在表8中,当我们将采样数量从两帧增加到三帧时,情感识别性能有所提高。此外,值得注意的是,尽管将采样数量设置为三帧,仍可能会忽略一些关键帧信息。因此,采样更多帧可能会进一步提升情感识别结果,我们将其作为后续工作。(3)多模态融合能力分析本节评估了GPT-4V的多模态融合能力。在所有任务中,推文情感识别和多模态情感识别提供了两种或两种以上模态信息。因此,我们在这些任务上进行了实验分析。表9显示了单模态和多模态结果。整体上,多模态结果优于单模态结果,这展示了GPT-4V整合和利用多模态信息的能力。但对于CMU-MOSI,我们注意到多模态结果略微低于单模态结果。这可能是因为CMU-MOSI主要依赖文本来传达情感,增加额外的视觉线索可能会引入干扰信息,进而影响模型判断。(4)系统稳定性分析本节评估了GPT-4V的预测结果稳定性。我们用GPT-4V对SFEW 2.0中的每个样本预测了10次结果。图3a展示了相同预测结果出现的频率。具体而言,我们假设对于一个样本,GPT-4V有8次预测为负向情绪,2次预测为正向情绪。那么,它预测为相同标签的次数为$c=8$。然后,我们计算所有样本的 $c$ 并统计其频率。在图3b中,我们展示了每次运行的测试准确率。我们观察到,尽管超过50%的样本在10次测试中表现出相同的结果,但也有一些样本在不同测试中表现出不同的结果,导致测试准确率的波动。与此同时,我们观察到最佳和最差结果之间存在着4.60%的差距。因此,GPT-4V表现出一定的不稳定性。我们建议后续研究者对GPT-4V进行多次评估,并使用多数投票来获得最终预测结果。(5)情感类别层面分析在图 4中,我们可视化了混淆矩阵并进行情感类别层面分析。对于视觉情感分析,GPT-4V在Abstract数据集中的结果较低。这可能是因为GPT-4V主要在自然图像上进行训练。抽象图像和自然图像之间的领域差异导致了GPT-4V有限的性能。对于推文情感分析,GPT-4V在识别 neutral 方面表现相对较差,经常将其错误分类为 positive或...
🚀零基础也能神图?AI绘图秘籍:3步找到超赞提示词🎉
AI助手资讯

🚀零基础也能神图?AI绘图秘籍:3步找到超赞提示词🎉

本文介绍了如何成为一个零基础AI绘图初学者,通过学习和实践,即使是电脑小白也能利用AI工具完美出图。文章强调了三个找到好的提示词的方法:1) 自己参考样图,理解并引导Midjourney;2) 利用ChatGPT4反向推理图片,然后微调;3) 通过明确需求,指定艺术媒介和风格。同时,文中提供了垫图技巧、利用参数的建议以及一些实例来指导操作,强调多出图以产生高质量作品,并指出使用特定元素如主题、媒介、环境等可以增加多样性。最后,文中还提及了在电商出图中使用垫图技巧及GPT4与MJ配合提高工作效率的方法。
ChatGPT空洞?掌握技巧,让AI‘心灵鸡汤’大放异彩!
AI情感助手

ChatGPT空洞?掌握技巧,让AI‘心灵鸡汤’大放异彩!

文章讲述了作者作为AI专家,经常解答关于工作中AI应用的问题,发现各行各业的人都在积极探索AI以提升竞争力。许多人认为AI高深莫测,但其实只要掌握方法,就能简单使用,如通过提示词和特定角色获得高质量回复。案例中提到,网友对ChatGPT的回应感到不满意,作者建议使用清风AI内置的“心灵鸡汤国学大师”角色来改进交流体验。并通过提供UP主的抖音视频链接,启发读者尝试用情感相关的提示来优化AI对话,以获得更丰富和有深度的回答。
ChatGPT引领法律革命?律师助手新纪元到来
AI律师助手

ChatGPT引领法律革命?律师助手新纪元到来

著名的律所安理和Harvey公司合作,利用ChatGPT的法律数据预训练和微调功能,为律师提供定制化的助手,以自动化撰写法律文件、辅助研究、审核合同等,并通过生成建议提高效率。随后,另一国际大所也加入,展示了生成式AI在法律行业的迅速应用和潜力,尤其在信函起草、翻译和法律文书编制方面展现出色表现。然而,这可能导致知识差距缩小,法律服务行业需应对AI技术带来的影响,如咨询被替代、业务模式变革和专业人员技能更新。随着大型语言模型平台的发展,它们不仅直接服务,还作为工具平台扩展了法律应用的可能性。
医疗AI如何照亮家庭?讯飞星火大模型带你走进智能健康未来
AI医师助手

医疗AI如何照亮家庭?讯飞星火大模型带你走进智能健康未来

在第六届世界声博会期间,科大讯飞发布了AI诊疗助手“智医助理”和AI心理伙伴,前者通过大模型技术修正误诊,后者具备多模态情感识别能力,两者均旨在提高医疗健康服务效率和质量,尤其关注基层和家庭用户。讯飞开放平台发展迅速,新增开发者团队数量显著增加,同时在星火大模型训练上取得进展,计划于2024年上半年达到GPT-4水平。