AI聊天机器人ChatGPT:新时代的交流伙伴与创作助手
AI客服助手

AI聊天机器人ChatGPT:新时代的交流伙伴与创作助手

ChatGPT是应运而生的AI助手,它利用生成式人工智能和大规模预训练模型技术,能理解和学习人类语言进行对话,并根据聊天的上下文进行互动,模仿人类的交流方式。它的功能不仅限于对话,还可以完成撰写邮件、视频脚本、文案、翻译、代码、论文等任务。
AI赋能法律工作:律师实用指南
AI律师助手

AI赋能法律工作:律师实用指南

这篇文章主要探讨了人工智能助手在法律工作中的应用及其对律师业务的影响。文章指出,尽管AI技术在语言理解和生成方面具有显著优势,并能帮助律师完成部分重复性和标准化的工作,但AI并不能完全替代律师。同时,如何最大化利用AI工具提升工作效率成为律师们需要关注的问题。文中建议律师应在了解自身工作流程和需求的基础上,尝试将AI工具应用于日常工作中,并通过学习AI使用技巧和梳理工作流程,使AI更好地服务于律师的工作。
赵婧等 | 生成式人工智能法律法规梳理与实务指引(一)——AI生成物的保护
AI律师助手

赵婧等 | 生成式人工智能法律法规梳理与实务指引(一)——AI生成物的保护

作者 | 赵婧 沈琲 罗赓上海申浩律师事务所 目次     一、生成式AI的工作原理二、人工智能生成物是否能够获得《著作权法》保护?三、人类如何拥抱生成式AI?四、我国“提示词”保护的思路的构想2023年7月,世界人工智能大会在上海如期举办,关于机器人、人工智能的新一轮话题热度又直线上升。AIGC(AI-Generated Content,人工智能生成物,此类型AI亦称为生成式AI)自2022年开始迎来了高速发展,不仅与金融、传媒、娱乐、医疗、工业等各行业进行结合,以低成本、高效率的方式满足海量个性化需求,与此同时也孕育着行业业态的新模式。而对AIGC的规制,美国版权局于今年3月发布了关于包含AI生成内容之作品版权登记的政策声明(Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence),我国也相应出台了《互联网信息服务深度合成管理规定》与《生成式人工智能服务管理暂行办法》。本专题将结合国际上的规制现状,国内的政策解读,对人工智能生成物是否能够获得版权保护,如何避免人工智能生成物侵权,以及人工智能所涉及的伦理问题等展开一系列探讨与实务操作指引。 一、生成式AI的工作原理 根据《中国AIGC产业全景报告》的定义,AIGC全称为AI-Generated Content,指基于预训练大模型、生成式对抗网络(GAN)等人工智能技术,通过已有数据寻找规律,并通过释放泛化能力生成相关内容的技术。在我们阐释AIGC可能涉及的法律争议之前,先来看看预训练大模型和生成式对抗网络的含义。预训练大模型(LLM),包含了“预训练”-“指令微调”两个步骤。第一步在大规模无标注数据(如互联网文本)上进行模型预训练,学习通用的语言模式;第二步在给定自然语言处理任务的小规模有标注数据上进行模型微调,快速提升模型完成这些任务的能力,最终形成可部署应用的模型。[1]生成式对抗网络,则是由生成器和判别器组成的深度学习模型。生成器主要用以生成和真实数据近似的数据,而判别器主要用于区分生成器生成的数据和真实数据。生成器和判别器共同构成了一个动态的“博弈过程”。我们以时下热门的图像生成式AI及文本生成式AI详细解释。图像生成式AI是指基于给定文本描述,生成图像的AI系统(Text-To-Image,又称T2I)。这受益于计算机视觉行业的进展与深度生成网络研究的突飞猛进。目前扩散模型(Diffusion Model)因操作简便、生成图像精度高而成为最流行的生成模型。这一类的典型代表有Stable Diffusion、Midjourney。早期的模型是通过对图像元素添加关键词,再让指令词与图像信息进行匹配,以此达到用户输入文本,AI输出对应元素拼贴的效果。而扩散模型则在此基础上改良,通过对图片添加噪声(noise),再以计算机神经网络的正向加噪、反向去噪声过程生成质量更高和创造性更强的图像。通过大量的学习训练,AI就能从足够多的素材中学习并生成最接近人类真实世界中的数据。我们再来看文本生成式AI。时下最火的产品莫过于ChatGPT4。开头我们说过预训练大模型(LLM)包含了“预训练”和“微调”的两段式练习,其实GPT在前两代的时候并没有展现出优于其他模型的性能,而到GPT3的时候,突破性地在两段式的基础上加入了in-context学习方式,通过给模型做示范,让模型感知应该输出什么,而不是直接标记最优答案。GPT3通过引导式的学习方式,在超大模型上展现出了惊人的效果:只需要给出一个或者几个示范样例,模型就能照猫画虎地给出正确答案。而GPT4在底层技术原理上并没有超越第三代,而是改变了训练策略,通过人工筛选,不断判断输出的哪些句子是好的,哪些是低质量的,这样就可以训练得到一个reward模型。通过reward模型来模拟人类打分的过程,自动对问题的不同回答打分,模型再根据打分调整参数。即用问题、回答和分值作为数据,用强化学习的方式训练模型。这就是Chat GPT可以模拟情景对话、给出多元化答案,并在和人类的对话中可以不断修正结果的原理。通过对上述生成式AI工作原理的阐述,我们不难发现,AI的学习离不开海量的数据源,而数据来源真实性直接影响了AI输出结果的准确性,而数据源的合法性则可能直接导致对版权、隐私和伦理的争议。而对于AI输出的结果是否能成为法律保护的对象,又是否可能侵害他人的权利,也成为AIGC法律合规的焦点。 二、人工智能生成物是否能够获得《著作权法》保护? 今年3月美国版权局推出了关于生成式AI作品版权的政策声明。在这份声明中,对“生成式AI的生成的材料”和“由人类创作的(human-authored)和人工智能生成材料(AI-generated material)组成的作品”进行了区分。首先该份声明依然坚持了一项基本原则——版权法只能保护“人”的智力创造。因此,由计算机算法自主创建的生成物是无法被认定为“作品”的。而在今年2月,一份由人类作者创作文本、Midjourney生成图像的图画小说Zarya of the Dawn,却得到了美国版权局的认可,被认为构成版权法保护的作品,获得了有限的保护。对此,美国版权局进一步解释,该图画小说中人类创作的文本属于人类的智力成果,符合版权法保护的标准,可以单独登记成为作品;而Midjourney生成的图像,仅仅是基于计算机算法得出的材料,无法独立获得保护,但不影响整个图画小说成为一个完整的作品。那么对于由人类使用生成式AI进行多次调整、修改后的作品是否能够保护呢?在此问题上,该份声明举例了人类使用Photoshop编辑图像的例子。视觉艺术家利用图像编辑软件修改图片,计算机仅仅是一种辅助工具,它不影响人类对作品表达的创作性控制,因而不会影响图片艺术家的“作者”身份。相反,对于由机器自动运行,没有人类作者的任何创意或干预而产生的作品则无法获得保护。而关于在人工智能训练中使用受版权保护的作品在法律上应当如何规制等问题,美国版权局后续也将向社会公众征求意见。因此我们看到了一个有意思的现象,美国版权局没有一刀切地认为只要是AI生成的作品就不是“作品”,而是需要进行个案分析。虽然如何判定人类在作品中的智力贡献,以及是否能够在单件作品中独立区分开人类创作部分和AI创作的部分,是一件在实际操作中并不容易的事情。但至少,该份声明明确了,版权法依然应当以人为本,也奠定了生成式AI应当服务于人类,成为人类工具的基调。而英国在作品的创造性问题方面,则一直主张“额头流汗”原则,即只要作品中存在作者的劳动即可,而无论此项劳动的多少。英国《1988年版权、设计与专利法》明确认可文学、戏剧、音乐或艺术作品如果是由计算机产生的,那么这一作品的作者应当是对该作品的创作进行必要安排的人,此类由计算机生成作品的著作权保护期限系自作品创作完成当年的最后一天起五十年,同时对于此类作品不适用著作人格权。[2]目前,我国现行出台文件均没有对AI生成物是否符合《著作权》法意义上的作品给出结论性评价。而在国内现有的案例中,对于AI生成的作品是否是“作品”也形成了完全相反的观点。让我们先回归法条,我国《著作权法》中所称的作品,“是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”,所以作品具有两个实质构成要件:“独创性”和内容属于“智力成果”。那么这里的“智力成果”是否必须为人类的智力成果呢?我们从(2019)粤0305民初14010号“Dreamwrite”案件中可以看出一些判断方向。深圳南山区法院认可了由Dreamwriter软件自动撰写完成的文章可以被认定“作品”,但其在说理部分强调了Dreamwriter软件的自动运行并非无缘无故或具有自我意识,其自动运行的方式体现了原告的选择,也是由Dreamwriter软件这一技术本身的特性所决定……从涉案文章的生成过程来分析,该文章的表现形式是由原告主创团队相关人员个性化的安排与选择所决定的,其表现形式并非唯一,具有一定的独创性。其观点是,人工智能生成内容基于人工智能的控制人或研发人员设置一定的技术、算法而得,其在一定程度上仍属于人类的智力成果。但同时可见,我国法院在判断AI生成物是否是作品的过程中,仍不可排除地需要甄别“人”在作品中的地位和作用。然而随着深度学习技术和大数据等网络技术的飞速发展,人工智能早已摆脱了遵循既定算法和程序的计算机辅助工具的地位,能够独立自主创作。这种自主创作的方式将可能使人对作品的控制性创造作用越来越小。因而,笔者认为,美国版权局的甄别方法或对我国AI生成物的保护具有一定的借鉴和参考意义。当然,我国《著作权法》虽暂无定论,却不妨碍生成式AI的提供者通过与用户订立协议的形式约定生成物的著作权归属。 三、人类如何拥抱生成式AI? 生成式AI给人类带来的冲击感毫无疑问是强烈的,甚至对一些职业造成了现实的威胁,比如游戏制图、影视美术、工业设计等领域,AI看上去稍加训练便可以替代,想象力甚至超越人类。但通过上文对AI原理的分析,我们也可以清醒地认识到,AI虽然具备了深度学习的能力,但仍在模拟人类进行思考,也需要通过人类来甄别一些信息。比如文本生成型AI,当我们需要一个专业领域的LLM时,用于预训练模型中的知识库就显得尤为重要。由于大多数预训练模型都是在通用训练语料上进行学习的,对于一些类似金融、法律等特殊领域中的概念和名词,AI都无法具备很好的理解。所以需要在训练语料中加入一些领域数据,以帮助模型在指定领域内获得更好的效果。这就给了专业领域的人才以新的合作机遇,而未来,训练完成的AI将可能有针对性地适配在各个专业领域内,成为能提高人类效率的良好工具。而图片生成式AI的新赛道则展露的更早,美国早已出现了售卖提示词的网站。在AI的世界里,提示词(Prompt)就是和AI沟通语言的桥梁,通过准确的使用关键词,才能让AI生成出自己想要的、具有稳定风格的作品。而那些能让AI做人类想要让他们去做的事情的专家被称为提示词工程师(Prompt Engineer)。 四、我国“提示词”保护的思路的构想 目前国内外,已有很多使用大模型进行生产创作的实践应用,涉及软件开发、文本处理、图像生成等多个领域,而“如何写出好的提示词”正在成为各个领域热论的议题。接踵而来的,即是优秀的提示词如何能够保护?我们首先来分析其是否能够通过《著作权法》进行保护。一些由词组、短句堆砌而成的较为简单的提示词,由于其本身不能联系成为一个语义连贯,具有独创性意义的作品,因而不属于著作权法保护的对象。而如将古诗词“横看成岭侧成峰,远近高低各不同”作为提示词,亦无法获得保护,因为该作品已属于公有领域,同样不符合保护条件。由此来看,提示词想要获得《著作权法》保护,则可能需要进行非常详细的描述,同时又要具备独创性的特征。如果要求提示词工程师一定要达成上述条件,其智力成果才能获得保护,确实是有些强人所难,更有些强AI所难,因为AI的本质系一系列计算机程序的组合,其善于接受的指令通常应当是简洁、简短、明确的词语或短句,并不需要过多的修饰或完整连贯的意思表示。但一段好的提示词的确需要工程师进行反复的推敲、实验、修改,同时也需要工程师具有一定的计算机软件编程知识或至少应当初步了解其所被提示的AI的基本工作或运作原理,要付出非常极大的努力,不可否认一段优秀的提示词应当被认定是智力成果。那么,在提示词本身的基本表达不能被著作权保护的情况下,是否有更好的保护方式呢?笔者认为,在没有新的法律法规制定和颁布之前,我们可以在现有知识产权法律法规框架体系中寻找适合的方式,首先,提示词的排列组合方式可以被定义为一种方法,而方法是可以通过发明专利进行保护的,简单以绘画类AI举例,当我们需要使用提示词通过绘画类AI生产作品时,提示词通常至少会包含需要绘画的物品、物品的色调、整体绘画的风格,如包含人物肖像,亦需要人物肖像的特征,人物的情绪定义等,对于这么多关键信息,我们采用不同的排列方式将会得到AI生成的不同表达的作品,例如先体定义总体风格并嵌套色调、先定义情绪再嵌套肖像特征与先定义色调、肖像特征最后定义风格和情绪将获得不同的作品,这种方式即方法如具有一定的新颖性和创造性,是可以尝试申请发明专利并获得发明专利的保护的。当然,通过发明专利保护的劣势也非常明显,即一件发明专利的审查期限至少需要12个月,甚至更久,对于提示词规则的生命周期而言,保护是否会滞后可能是需要进一步考量问题;其次,我们来看提示词的本质,即一些具有明确含义的字、词、短语或短句(下文我们称之为“提示词元素”),其中明确的含义一般是指没有歧义,只有准确表达,让AI准确领悟提示人的意图,才能更有效地创作AI生成物(作品),从这一特性我们可以基本断言有效且优秀的提示词元素是有限的,例如可以有效提示肖像的提示词元素是这几个、有效提示情绪的是那几个、有效提示风格的是这一系列、有效提示运动状态是那一系列。这样大家是否想到,或者已经有非常多的企业已经在做的一个工作就是收集并汇总各个领域有效且优秀的提示词元素,并将其分类梳理为数据库,而“数据库”是我国著作权法明确保护的作品客体。所以,即便实际应用的某一段提示词不构成著作权法意义上的作品而不能获得保护,但可以考虑对提示词的分类组合的数据库进行确权和保护,而其关键点可能在于提示词的分类即数据库的字段设置,具体我们将另外行文分析。AIGC可以说是一项最接近普通人的AI运用,它使得AI不再那么高不可攀,只要一台联网的终端,人人都可以通过向AI发出指令的方式进行创作,并得到AI创作物(AIGC)。AIGC让人们体会到了AI的强大、便捷和效率,即便是在当下生成式AI实际应用发展的初期,其已经能为个人、企业解决非常多棘手的、繁杂的问题,其迅速热门也就不足为奇。由此接踵而来的当然是各种法律问题,无论是AI服务的提供者、AI服务的运用者、AI生成的作品的阅读者都会想要了解自己在提供服务、使用服务、浏览作品时应当符合的法律规范,笔者的系列文章意在通过探讨分析我国以及世界相关法律法规并结合自身通过分析得出一些粗浅结论让大家更好地了解AI相关法律问题,并希望能拓宽大家的视野,为大家在AI领域的运用提供灵感。下一篇文章,我们将着重探讨我国对于生成式AI的态度以及相关管理规定的解读,AI生成物如何避免侵权等问题。 注释(上下滑动阅览) 【1】 《大规模预训练模型》,《中国计算机学会通讯》2021年5月第5期,P8【2】 [ 唐蕾.人工智能生成物的著作权保护比较法研究——以元宇宙背景为视角[J].电子知识产权,2023,No.376(03):81-90.]参考文献【1】《大规模预训练模型》,《中国计算机学会通讯》2021年5月第5期【2】《一文读懂ChatGPT模型原理》,JioNLP团队,知乎【3】ChatGPT的工作原理:机器人背后的模型,36氪,百度赵婧专栏文章SPECIAL COLUMN 赵婧 罗庚 | 从郑渊洁案看“在先权利”保护的边界 虚拟偶像法律问题研究:虚拟偶像著作权及人格权问题探讨 法律视角解构NFT 作者:赵婧 罗赓 沈琲 编辑:Sharon 点击图片查看文章...
ChatLaw:北大团队发布的首个中文法律大模型落地产品
AI律师助手

ChatLaw:北大团队发布的首个中文法律大模型落地产品

本文介绍了北大团队发布的首个中文法律大模型落地产品ChatLaw,该产品为大众提供普惠法律服务,支持文件、语音输出等功能。大语言模型为法律行业带来技术奇点,可以让复杂知识变得易懂,但存在幻觉问题,尤其是涉及到法律领域。为解决此问题,团队构建了法律知识库,并与专业人士合作确保数据的准确性和可靠性。此外,他们在模型训练阶段就进行了干预,并引入多个模块确保模型生成正确内容和遵守法律先验知识。ChatLaw模型还通过了含有2000个问题的测试集,证明了“先验知识约束”的有效性。这套体系使得他们的产品具有高度的延展性,如支持法律援助、法律文书、思维导图等多样化输出。他们计划半年内覆盖法律行业的主流工作场景和业务。
AI生成的作品是否属于著作权法意义上的作品?
AI律师助手

AI生成的作品是否属于著作权法意义上的作品?

本文介绍了AI-Generated Content(AIGC)的概念及其可能涉及的 legal争议。AIGC 是一种基于预训练大模型和生成式对抗网络等技术,通过已有的数据寻找规律并生成相关内容的技术。预训练大模型经历了预训练和指令微调两个步骤,而生成式对抗网络由生成器和判别器组成,共同构成了一个动态的博弈过程。当前,AI 生成式内容在图像生成、文本到图像等领域得到了广泛应用,但同时也引发了关于版权、隐私和伦理等方面的争议。美国版权局对生成式 AI 作品的态度较为谨慎,认为只有 human-authored 和 AI-generated material 的组合才能被认为是作品。而 UK 的立场则是强调“额头流汗”原则,即只要作品中存在作者的劳动,无论劳动的多少,都可以视为作品。我国尚未对 AI 生成物是否符合《著作权》法意义上的作品给出明确的结论性评价。
AIlegalanalysis:GPT3.5failstomeetexpectations
AI律师助手

AIlegalanalysis:GPT3.5failstomeetexpectations

这篇文章主要介绍了一个名为“法律小助手”的AI系统在使用GPT 3.5时的表现不佳,并且测试出来的结果与预期不符。文章还提到了一些测试问题,包括一些法律问题和一些现实生活中的情境问题。作者指出,尽管AI可以提供一定的帮助,但在某些情况下,人类律师仍然需要发挥关键作用。
AI助力法务:从“引经据典”到纠纷解决
AI律师助手

AI助力法务:从“引经据典”到纠纷解决

这篇文章介绍了人工智能助手DoNotPay的发展历程和应用范围。自成立以来,DoNotPay在纽约和伦敦成功推翻了超过16万张停车罚单,并解决了200万个相关案件。近日,该机器人开始将目标锁定在航空公司,为用户提供WiFi服务退款等服务。然而,它在旧金山的一起诉讼中也面临着法律挑战和质疑。总体来说,DoNotPay展示了人工智能在法律领域的潜力,但也暴露出当前法律监管的难度。
《AI大模型竞赛:谁在吊打ChatGPT?》
AI情感助手

《AI大模型竞赛:谁在吊打ChatGPT?》

这篇文章讨论了当下 AI 行业中“百模大战”的现象,即各大厂商发布的多款大模型在各种榜单上争夺第一名。然而,尽管这些大模型在某些方面表现出色,但在用户实际体验中,其表现并不尽如人意。此外,由于各种不同的统计排名口径,使得榜单变得难以使用。文章指出,部分榜单存在刷榜现象,这导致了一些模型虽然在榜单上排名靠前,但在实际应用中表现不佳。为此,C-Eval 团队 issuing lists of models that have passed their evaluation and those that haven't, in order to help users carefully evaluate the actual performance of these models.
原创|  如何释放大模型对金融行业的价值?
AI金融助手

原创| 如何释放大模型对金融行业的价值?

“综合考虑投入和产出性价比,中小金融机构可按需引入各类大模型的公有云API或私有化部署服务,直接满足赋能诉求。”——吕仲涛 新金融联盟学术理事、工商银行首席技术官“类GPT模型是高级复读机,有多少‘人工’就有多少‘智能’。模型100%会犯错,模型之上必须要有运营兜底机制,知错就改。”——胡时伟 第四范式联合创始人、首席架构师“AI很容易被媒体炒作,还很容易找到好的case,一开始我们会惊讶于好case,但慢慢发现它不一定能够普世。”——沈志勇 民生银行数据管理部总经理 上述观点源自6月10日新金融联盟举办的“金融机构数智化转型与大模型技术应用”内部研讨会。会上,吕仲涛、沈志勇、平安银行数字资产管理与研发中心总经理刘锦淼、胡时伟做了主题发言。新金融联盟理事长、中国银行原行长李礼辉、中国信通院金融科技研究中心副主任赵小飞进行了点评交流。 56家银行及非银机构、55家科技公司的170多位嘉宾通过线上线下参会。会议由新金融联盟秘书长吴雨珊主持,中国金融四十人论坛提供学术支持。以下为部分精彩内容。 研讨会现场大模型=大算力+大数据+强算法 今年以来ChatGPT风头强劲,带火了大模型技术。大模型即网络参数规模达到亿级以上的“预训练深度学习算法”,在文本图像理解、内容生成等任务表现出显著优势和巨大潜力。 “大模型必须基于‘大算力+大数据+大算法参数网络结构’进行训练。”吕仲涛介绍,大模型技术是一个复杂的体系性工程,涵盖大模型算力集群建设、算法沉淀、配套流水线工具、大模型服务等内容。 赵小飞认为,硬科技对于大模型的发展也很重要。2012年,英伟达将其GPU应用于深度学习研究,GPU的并行计算能力在处理密集数据时效率远高于CPU,为英伟达成为AIGC最大的获利者埋下伏笔。OpenAI在GPU算力升级的加持下,从GPT-1迭代到GPT-4。 “能够支持AI大模型的算力基础设施建设需要持续投入巨大的财力、人力,要花得起钱,找得对人,还要耐得住寂寞,这就势必导致算力集中。一是向主要国家集中,二是向资本巨头和科技巨头集中。”李礼辉表示。 李礼辉指出,算力基础设施的布局和建设应该锚定全球领先的目标,硬件与软件并重并行,国家级与企业级联动联调,新中心与老中心集约集成,人力资源与运营成本统筹兼顾。 “从参数规模来看,百亿大模型具备一定的文本生成和通用能力,但难以处理逻辑复杂、专业性强的任务;万亿大模型因算力消耗极大,短期内难以进行商业推广应用。”吕仲涛表示,千亿大模型平衡了百亿和万亿大模型优势,性价比优势明显,是近几年发展及应用的重点。 ChatGPT是目前最先进的AIGC大模型应用。“要打造与ChatGPT媲美的AI大模型,就一定需要无断层、无障碍的数据供给。但是,数据共享模式的局限可能影响数据价值的深度开发,地缘政治冲突可能影响全球数据资源供给格局。”李礼辉认为,要参与数据跨境流动,在维护数据主权的同时,充分利用全球数据资源,打造算力竞争优势。有多少人工就有多少智能 尽管大模型十分强大,但也裹挟着一些风险。 “受制于当前模型黑盒、计算复杂度高等因素,大模型存在答非所问、科技伦理风险等方面问题。比如,ChatGPT生成大量看起来合乎逻辑,但内容可能并非真实甚至是捏造的事实,存在非法利用、造谣等安全隐患。”吕仲涛表示。 李礼辉强调,对AI虚假与AI操纵必须高度警惕,重点是提升深度合成内容鉴别技术;建立AI信任制度,加强AI监管,在国家层级建立预防AI操纵的防火墙。 如何理性看待大模型,胡时伟分享了三点认知: 第一,要相信科学,没有大模型涌现的逻辑。类GPT模型的背后还是机器学习,要想有一个好的模型能力,必须基于基础大模型的调优以及行业特定操作。 第二,类GPT模型是高级复读机,有多少“人工”就有多少“智能”。通用大模型都是用人类现有语料训练,其正确性一定来自于人反馈的数据,行业一定要不断迭代告诉大模型什么是好的、什么是对的,这必须靠人工完成。 第三,模型之上必须要有运营兜底机制,知错就改。模型100%会犯错,哪怕是GPT4,在行业专业、严肃场景的应用不可能达到工业可用的效果,人工兜底机制让它从不可用变成可用。 “知错就改有三个机制叠加保障:一是专家给答案;二是专家给示例;三是专家生成的知识反馈给模型,让模型少犯错。”胡时伟表示。大模型对金融行业价值几何 要将大模型融入具体行业的核心生产经营流程,可谓任重道远。 赵小飞以工业为例分析,工业场景中的很多数据是不可读取的,或者即使读取了也需要一个翻译和解读的过程。在数据之外,工业领域对安全、稳定、可靠等指标极其严苛的追求,才是生成式AI不能满足的地方。此外,工业制造细分领域众多,没有海量数据标签,基本上不可能形成类似GPT的通用大模型。 “金融行业生产经营虽然没有工业那么复杂,但对于民生、经济安全的影响会更高,所以对于新技术应用需要非常谨慎。”他表示。 吕仲涛表示,由于大模型技术尚不成熟,存在伦理风险。短期内不建议直接对客使用,应优先面向金融文本和金融图像分析理解创作的智力密集型场景,以助手形式,人机协同提升业务人员工作质效。不过,虽然大模型有各类安全风险,但同样给银行业数智化转型带来新机遇,其潜力和空间是无限的。 “未来大模型银行业务的应用场景非常丰富。”刘锦淼介绍,从BankGPT反馈的测试情况来看,它已经具备作为一个智能助手适配场景相关落地的能力。目前已经应用的场景有客户服务、信贷审批、投研服务三大类。 他还表示,在AI应用和业务投产方面,AI算法模型对业务发展的价值如何、能多大程度覆盖全行业务场景,让算法替代人还是让算法永远服务人,投产策略能否做到线上化、自动化、投入产出量化根因回溯分析……都是未来可以思考和探索的方向。 一个超级模型VS.一堆专业模型 “短期内,大模型和传统模型会共存,同时,大模型可作为中控,将传统模型作为技能进行调用。长期看,若大模型计算复杂度降低、可解释性增强,综合性价比来考虑,大模型将逐步替代传统模型。”吕仲涛分析称。 沈志勇认为,大模型的应用好比炼钢。作为通用底座的炼钢工厂越大越好,要集中力量办大事,避免遍地小高炉。而作为应用场景的用钢,则应多元化、市场化。“用钢”部分可以分成两段,AIGC或者其它一些大模型的应用场景端形成市场化,具体应用场景里自己负责。 吕仲涛表示,需要探索形成一套面向银行业的高标准、低门槛的银行业金融大模型应用模式,才能快速推进人工智能在行业的深化应用。 预算是有限的,预算决定了算力,算力决定了参数规模。“我们需要抉择——要一个超级大模型还是一堆专业模型?”胡时伟说。 “一个思路叫大力出奇迹,如果做一个超级大模型,以中国目前的算力情况,要五年后才能实现,但数字化进程不能等,五年之内如果纯粹以大为方向,就是主动把脖子送给别人卡。”胡时伟认为,我们会走另一个方向,用“学件”的思路,做一堆专业模型,各司其职,方便迭代,便于维护,成本可控。就好比一个公司,不能全部都是董事长秘书,还需要销售、产研、行政等。超级英雄成本很高,也很难管理。 (文| 余春敏) 往期研讨会回顾 互金协会、金融机构、催收公司共议:催收的边界在哪,如何应对反催收黑产? 银行理财距离真正的投研驱动有多远? 银行理财规模持续下滑,如何止血? 个人养老金业务发令枪响,银行、理财子如何接招? 【关于我们】 新金融联盟(NFA)成立于2016年,致力于打造一个高质量的新金融政策研讨和行业交流平台。成立以来,联盟共组织各类闭门研讨会、优秀企业参访近百场,议题涵盖数字金融、数据治理、资产管理等方向。部分研讨成果形成报告,呈送给相关部门,推动了业界与监管的沟通交流,助力理事单位的合作共赢。