AI绘画提示词全攻略,让你所想即所画!
AI助手资讯

AI绘画提示词全攻略,让你所想即所画!

这可能是你从来没有见过的生产模式。提示词又成为魔法、咒语,在AI时代,掌握了提示词,你可以在一分钟之内写一篇文章,做一首歌曲,生成一张精致的图片。基础原理大多数人用不好提示词的根本原因是他没有理解提示词的运行机制。当你输入一个红色的帽子,SD并不是在画布上去框定一个帽子的轮廓,并将所有像素点渲染成红色。同样当你输一个8K时,SD也不会给你生成一个8K分辨率的图片。而提示词的真正作用,你可以简单地理解为搜索的关键词,帮助你找到SD库中最匹配你各个提示词的图片,然后模仿这些图片的绘制方式给你画一张图出来。所以当你输入8K高品质时,SD是去库中找到这些高品质图片的绘图方式,来学习模仿,而不是直接设置你图片的清晰度。所以提示词原理有两个核心原则:1、SD不是什么都懂。有些词如果库里没有,它是无法理解的。所以我们要更多地使用Web UI中给出的常用提示词。2、提示词之间会相互污染。所以提示词不是越多越好,要尽可能地做减法。提示词结构提示词分为正向提示词和反向提示词。正向提示词指画面中需要出现的内容,如一个女孩大师级作品。反向提示词,指画面中不应出现内容,如崩坏的手指。从语义来讲,提示词又可以分为:图片质量。如高画质、高细节。通常我们将高画质的词组保存下来,每次先固定输入。图片的结构。如半身照、全身照、全景、中景。图片的具体内容。如一个女孩蓝色的头发、黑色的眼睛、微笑的表情。图片风格。如单色图片、像素画、水彩等等。明确了基本结构后,我们该如何编写提示词呢?基于提示词的原理,我们在SD中编写提示词更倾向于写单个词语或简单的词组,用逗号分割,而不是写长长的一句话。这样更便于SD的语言编码器进行处理,让SD更好地理解我们的输入。平时也可以多收集一些优秀作品的提示词作为自己的素材库,分门别类整理好。我自己也整理了一份词库,一共12000+词组。图片的提示词包含各种风格、主题类型。这份词库我已经打包好,点击下方卡片即可免费领取! 还有更多资源可以分享出来【Stable Diffusion学习路线思维导图】【Stable Diffusion安装包(含常用插件、模型)】【AI绘画视频合集】上述资料我已经打包好,点击下方卡片即可免费领取!
爱健康商业模式的核心竟争力
AI医师助手

爱健康商业模式的核心竟争力

​爱健康以消费为底层逻辑; 打造全球消费者众筹; 流动的店铺; 企业家的联盟; 云端作业; 指尖经济; ?真正实现—— 一部手机,一根网线,走不出户,生意在全球。 ?真正实现—— 轻资产,无投资,无风险,仅消费可以创业,是平凡人逆袭人生改写命运的最佳捷经 ?真正实现—— ​ 这个选择需要有一定的认知水平。 ​ 用四个思维评估五个要素​。 ??四个思维 ①趋势性思维——       ​产品趋势 商业趋势 ②先机性思维——   ​是否属于创业黄金周期​​​​​​​​​​​ ③标杆性思维 行业龙头企业,做出行业标准 ④杠杆性思维 符合行业的核心价值——建立人阶网络资产 ??五个要素 公司  时机  产品   制度   系统 ​ ✔什么是趋势性的商业模式 ​✔爱健康公司的盈利模式 ✔差异性就是竞争力。 ​ ?什么是趋势性的商业模式? 趋势大于优势。优势代表现在,趋势大于未来。 ?商业的本质是交易 供方    通过渠道     ...
论文速递丨融合情感的GPT-4V(下篇)
AI情感助手

论文速递丨融合情感的GPT-4V(下篇)

Information Fusion:GPT-4V with Emotion(下篇)论文链接:https://arxiv.org/pdf/2312.04293.pdf代码链接:https://github.com/zeroQiaoba/gpt4v-emotionGPT-4V with Emotion(上篇):https://mp.weixin.qq.com/s/yPirDU6bxAA-UoEwnFzKkQ论文作者:连政1、孙立才1、孙海洋1、陈康2、温卓凡1、顾浩1、刘斌1、陶建华3 单位:1中国科学院自动化研究所,2北京大学,3清华大学 摘要  最近,GPT-4V在多种任务上展现出了卓越的能力,但其在情感识别方面的表现尚未得到充分验证。为此,本文展示了GPT-4V在21个基准情感数据集上的定量评估结果,涵盖6个任务:视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。本文将这些任务统称为“广义情感识别(GER)”。通过实验分析,我们发现GPT-4V在GER任务中表现出了强大的视觉理解能力。与此同时,GPT-4V显示出了多模态融合以及时序建模能力。然而,目前GPT-4V主要适用于通用领域,在需要专业知识的微表情识别任务上性能不佳。本文提供了GPT-4V在GER任务中的首个定量评估结果。我们已经开源了代码,并希望后续的研究者拓展评估范围,囊括更多任务和更多数据集。 引言  情感因其在人机交互中的重要性引起了研究人员的广泛关注。当前情感识别研究主要集中在两个层面:一个是识别外部刺激诱发的情感;另一个是分析人类通过各种模态传达的情感。我们将这些任务统称为“广义情感识别”。情感与视觉、听觉、文本等信息密切关联。其中,视觉信息(如色彩、亮度、表情、行为等)包含了丰富的情感关联成分。最近,GPT-4V在各种任务中展示出了强大的视觉理解能力。那么,GPT-4V能否在一定程度上解决GER问题?如果可以,那么在GPT-4V出现后,情感计算领域未来需要关注的方向是什么?在2023年9月,GPT-4V被整合到了ChatGPT中。当时,OpenAI尚未发布GPT-4V API,用户只能手动上传测试样本。由于需要大量人力,当时的评测报告通常只为每个任务选择有限数量的样本,仅提供了GPT-4V的定性评估结果。在2023年11月,OpenAI发布GPT-4V API,但限制每天只能访问100次,依然很难在基准数据集上比较GPT-4V与目前最先进系统的性能差距。2023年12月,OpenAI增加了每日限额,使我们能够进行更全面的评估。在本文中,我们提供了GPT-4V在GER任务上的定量评估结果,涵盖了视觉情感分析、推文情感分析、微表情识别、面部情感识别、动态面部情感识别、多模态情感识别。图1显示了GPT-4V的整体结果。我们还展示了随机猜测和监督系统的结果。为了公平比较,我们在基准数据集上进行评估,并使用了一致的评估指标。整体上,GPT-4V优于随机猜测,但仍落后于监督系统。为了找出背后的原因,我们进一步对GPT-4V的多方面能力进行了分析,包括多模态融合、时间建模、鲁棒性、稳定性等。 图1 GPT-4V在GER任务上的定量评估结果 任务描述  我们详细描述了每个任务的评估数据集。本次评测涵盖6种GER任务共计21个基准数据集。表1汇总了不同数据集的统计信息。为了与监督系统公平比较,我们在官方测试集上评估性能,并选择最常用的评估指标。图 2展示了数据类型的多样性。一些数据集是面向自然场景的(如AffectNet),而另一些是实验室环境下的(如CASME和CK+)。同时,不同数据集存在色彩空间差异。一些数据集使用灰度图像(如CK+),而另一些使用RGB图像(如CASME和AffectNet)。不同数据集的预处理过程详见原始论文。表1 数据集统计量:测试样本量、评价指标、以及数据集候选标签 图2 评测数据样例 GPT-4V调用策略 本文评估了GPT-4V API,即“gpt-4-vision-preview”的性能。GER任务涉及多种模态,包括图像、文本、视频、音频。然而,GPT-4V只支持图像和文本。为了处理视频,我们对视频进行采样将其转换为多张图像。为了处理音频,我们尝试将音频转换为梅尔频谱图。然而,GPT-4V未能基于梅尔频谱图生成正确的响应。因此,本文主要关注图像、文本、视频。在本节中,我们为GER任务设计了专门的调用策略,包含batch-wise、repeated和recursive调用模块。具体伪代码详见算法1。(1) Batch-wise CallingGPT-4V API有三个请求限制:每分钟的token数(TPM)、每分钟的请求数(RPM)和每天的请求数(RPD)。为了满足RPM和RPD,我们采用batch-wise输入。具体而言,我们将多个样本同时输入,并在一次请求中生成所有结果。然而,batch size太大可能导致token总数超过TPM限制。此外,它增加了任务难度,可能导致不正确的响应结果。因此,我们将图像的batch size设置为20,视频的batch size设置为6,以同时满足TPM、RPM和RPD的限制。(2) Repeated CallingGER任务经常触发安全检查,导致GPT-4V拒绝提供回复。这主要是因为GER任务包含视觉情感分析和人类情感识别。前者包含暴力和血腥的图像。在后者,人类身份也被视为敏感信息。为了减少拒识情况,我们要求GPT-4V忽略身份信息,但它仍会触发安全检查。有趣的是,这些错误有时是比较随机的。例如,尽管所有图像都是以人为中心,但有些通过了安全检查,而有些则未通过。或者,一个样本可能最初未通过检查,但在重试后通过了。因此,我们对拒识批次进行多次重复调用,直到调用次数上限。(3) Recursive Calling在评估过程中,我们发现批次输入可能会触发安全检查,但将其拆分为更小的批次有时可以通过检查。因此,对于持续拒识的批次,我们将其分成两个较小的批次,然后分别将它们输入GPT-4V中获取相应。(4) 组合策略我们的策略结合了批次调用、重复调用和递归调用。更多细节详见算法1。正确的响应需要满足两个条件。首先,它不应触发安全检查。其次,它应包含正确数量的预测结果。 算法1 GPT-4V调用策略 结果与分析 本文从三个层面进行结果分析:数据集层、情感类别层和样本层。我们仅展示部分实验结果。完整的分析报告详见原始论文。(1)数据集层表3展示了视觉情感分析的结果。我们观察到GPT-4V在大多数数据集上优于监督系统。这归因于GPT-4V强大的视觉理解能力,加上其推理能力,使得GPT-4V能够准确推断出图像诱发的情感状态。但对于微表情识别(见表4),GPT-4V表现不佳,甚至有时比随机猜测更差。这些结果表明,GPT-4V主要为通用领域设计。它不适用于需要专业知识的微表情识别。表5~8展示了推文情感分析、多模态情感识别、面部情感识别和动态面部情感识别的结果。为了处理视频,我们对视频进行均匀采样,并将这些采样图像按顺序输入GPT-4V。为了降低调用成本,我们最多采样三帧。实验结果表明,尽管GPT-4V与监督系统之间仍然存在着性能差距,但GPT-4V显著优于启发式基线,显示了其在情感识别任务中的潜力。(2)时序建模能力分析为了减少GPT-4V的调用成本,本文限制每个视频最多采样三帧。在本节,我们进一步分析了采样数量的影响。在表8中,当我们将采样数量从两帧增加到三帧时,情感识别性能有所提高。此外,值得注意的是,尽管将采样数量设置为三帧,仍可能会忽略一些关键帧信息。因此,采样更多帧可能会进一步提升情感识别结果,我们将其作为后续工作。(3)多模态融合能力分析本节评估了GPT-4V的多模态融合能力。在所有任务中,推文情感识别和多模态情感识别提供了两种或两种以上模态信息。因此,我们在这些任务上进行了实验分析。表9显示了单模态和多模态结果。整体上,多模态结果优于单模态结果,这展示了GPT-4V整合和利用多模态信息的能力。但对于CMU-MOSI,我们注意到多模态结果略微低于单模态结果。这可能是因为CMU-MOSI主要依赖文本来传达情感,增加额外的视觉线索可能会引入干扰信息,进而影响模型判断。(4)系统稳定性分析本节评估了GPT-4V的预测结果稳定性。我们用GPT-4V对SFEW 2.0中的每个样本预测了10次结果。图3a展示了相同预测结果出现的频率。具体而言,我们假设对于一个样本,GPT-4V有8次预测为负向情绪,2次预测为正向情绪。那么,它预测为相同标签的次数为$c=8$。然后,我们计算所有样本的 $c$ 并统计其频率。在图3b中,我们展示了每次运行的测试准确率。我们观察到,尽管超过50%的样本在10次测试中表现出相同的结果,但也有一些样本在不同测试中表现出不同的结果,导致测试准确率的波动。与此同时,我们观察到最佳和最差结果之间存在着4.60%的差距。因此,GPT-4V表现出一定的不稳定性。我们建议后续研究者对GPT-4V进行多次评估,并使用多数投票来获得最终预测结果。(5)情感类别层面分析在图 4中,我们可视化了混淆矩阵并进行情感类别层面分析。对于视觉情感分析,GPT-4V在Abstract数据集中的结果较低。这可能是因为GPT-4V主要在自然图像上进行训练。抽象图像和自然图像之间的领域差异导致了GPT-4V有限的性能。对于推文情感分析,GPT-4V在识别 neutral 方面表现相对较差,经常将其错误分类为 positive或...
人工智能医疗:数据魔力与诊疗挑战?
AI医师助手

人工智能医疗:数据魔力与诊疗挑战?

本文探讨了人工智能在医疗领域,尤其是医学影像分析和诊断上的应用。通过实例说明,人工智能在某些疑难病例上能提供更准确的诊断,其准确率远超传统方法。然而,人工智能的"黑盒效应"问题使其决策过程难以解释,这给医疗责任带来了挑战。此外,算法可能会违反基本常识或伦理,如将医疗机构信息纳入评估,这些都需要进一步解决才能让人工智能真正替代或辅助人类医生。尽管如此,人工智能在诊疗效率和诊断准确性上的优势仍值得期待。
信息安全与数据合规 | 从法律实务角度漫谈Chat GPT
AI律师助手

信息安全与数据合规 | 从法律实务角度漫谈Chat GPT

《从法律实务角度漫谈Chat GPT》 主讲人:孙洪良律师、王馨悦律师 一、展开说说:Chat GPT面面观 (一)功能几何? (二)弱点何在? 二、潜在隐患:法律风险知一二 (一)数据安全风险 (二)知产侵权风险 (三)技术伦理风险 三、警钟长鸣:切莫违法惹事端 (一)律师用Chat GPT打官司遭制裁 (二)用Chat GPT制作虚假视频被抓捕 (三)擅自买卖Chat GPT账号涉嫌非法经营 一、Chat GPT面面观 01 孙律师:首先向大家介绍一下Chat GPT。Chat GPT是什么?为了回答这个问题,我向Chat GPT下达了指示,要求他做一个自我介绍,以下是Chat GPT的答复“我是一个由Open AI开发的大型语言模型,基于GPT-3.5架构训练而成。我被训练用于处理各种自然语言任务,包括回答问题、提供解释、生成文本等。 我在广泛的主题和领域上有一定的知识,但需要注意的是,我是在2021年9月进行训练的,因此我没有关于过去这个时间点之后发生的事件的信息。我可以提供一般性的知识、帮助解决问题和提供指导,但在某些特定领域的专业知识上可能有限。 我旨在与用户进行对话,并根据输入的上下文生成响应。尽管我经过了广泛的训练和优化,但并不意味着我的回答始终是准确和完美的。有时候,我可能会提供错误或不完全准确的信息。因此,在处理重要事务或需要专业意见的情况下,建议咨询相关专业人士。 总之,我是一个用于自然语言处理的语言模型,旨在帮助回答问题、提供信息和进行有意义的对话。如果您有任何问题,请随时提问!” 王律师:我们也可以从名字的角度了解Chat GPT。首先,我们把这个名字拆成两部分 : Chat 和GPT “Chat”( 聊天 ) :这个英文单词意味着与别人进行轻松地交谈。在这里,“Chat”用来表示这个人工智能的主要功能就是和人聊天,通过文字和您进行对话,回答您的问题,给您提供帮助。 “GPT”:这是一个缩写,代表了“Generative Pretrained Transformer”,这是一种很先进的人工智能技术。 我们来逐个解释这几个词: “Generative”( 生成式 ):意味着这个...
康检AI引领健康革命!只需一报告,40余疾病全盘掌握?内蒙古新赛道加速启航!
AI医师助手

康检AI引领健康革命!只需一报告,40余疾病全盘掌握?内蒙古新赛道加速启航!

"康检AI人工智能健康风险评估系统已应用于内蒙古,通过分析血常规数据,可在三分钟内生成40余种疾病评估报告,由本土公司自主研发。该系统提升了健康管理的精确度,如天顺新能源公司的徐红义所述,为员工提供个性化服务和健康趋势分析。它覆盖十大人体系统的风险预测,有助于早期疾病检测和预防,有利于健康产业的创新升级和患者福利。"
🔥Intel引领未来!AIPC如何重塑医疗健康新生产力?🔥六大应用场景+超强本地化,看英特尔如何推
AI医师助手

🔥Intel引领未来!AIPC如何重塑医疗健康新生产力?🔥六大应用场景+超强本地化,看英特尔如何推

2024年英特尔商用AI PC产品发布会聚焦AI技术在PC领域的应用,展示了六大AI应用场景,包括医疗健康、药物研发等,强调AI PC终端优化融合和本地化能力,通过酷睿处理器的三大AI引擎赋能六大场景。会上发布的AI PC产品及解决方案展示了强大的AI计算能力和本地化优势,降低网络依赖,支持丰富办公需求。在药物研发领域,AI正加速靶向发现,英矽智能的PandaOmics与AI PC结合,实现了高效早期药物发现。此外,人工智能也在医疗服务中得到广泛应用,如“数字人”,提高了医疗智能化水平和患者体验。未来,随着技术进步和应用场景拓展,“数字人”将推动医疗健康服务创新升级。