ChatGPT在欧洲的命运:法律逻辑与OpenLetter
AI律师助手

ChatGPT在欧洲的命运:法律逻辑与OpenLetter

这篇文章主要讨论了ChatGPT在欧洲各国面临的被禁风险,以及相关的法律逻辑。文章中提到了一封公开信,呼吁暂停大型AI实验,同时也有多个分析认为,暂停AI开发是不明智的,因为AI技术已经展现出了巨大的潜力。此外,德国等国家因隐私问题考虑禁止ChatGPT,但这种做法可能带来反效果。
人工智能法律服务的前景与挑战| AI观察
AI律师助手

人工智能法律服务的前景与挑战| AI观察

曹建峰 腾讯研究院研究员 在刚刚过去的周末,想必大家都被腾讯AI Lab研发的围棋人工智能程序“绝艺”刷屏了,在第10届UEC杯计算机围棋大赛中,“绝艺”11战11胜,夺得冠军。这是围棋界自谷歌的阿尔法狗之后的又一爆炸性新闻。但AI的“洪荒之力”可绝不止于此,开始涉足高大上的法律服务市场。“绝艺”的研发者说,AI在推动人类对围棋的认知,这同样适用于法律服务。 从法律检索、法律文件准备到合同审核、法律咨询再到案件结果预测、诉讼策略选择,以人工智能为标志的法律科技正在搅动法律服务市场。去年6月,IBM 的认知计算机 Watson 支撑的史上首个人工智能律师 ROSS “受雇于”一家美国律所,它可以用人类语言和律师交流,给人一种和准雇员共事的体验。在英国,一款名为 DoNotPay 的机器人律师可以帮助用户挑战交通罚单并准备所需的法律文件,现在已经扩大到了政府住房申请、难民申请等法律服务。在国内,人工智能成为今年两会一大热点,所谓的法律机器人“小梨”“法狗狗”等不断涌现,受到公众关注。有预测甚至认为,在15年内,机器人和人工智能将会主导法律实践,给律所带来“结构性坍塌”,法律服务市场的面貌将大为改观。 难道真如电影《回到未来2》中所预测的,终有一天将不再需要律师?如果 AI 可以以更高效、更廉价的方式提供法律服务,提高正义和法律服务的可得性,对穷人难道不是一大福音吗?但如果诉讼双方在法律科技的获取上存在很大的不平衡,也可能造成新形式的不公正和滥用。虽然法律科技可能前景无限,但其中的一些挑战也需要人们思考并回应。 一、AI来了,人类的工作还安全吗? 1956年见证了“人工智能”(artificial intelligence)这一概念的问世。在随后的六十年间,人工智能历经两次发展浪潮、两次AI寒冬。这一次,AI真的来了。 2010年以来,在大数据、机器学习、计算能力等因素的推动下,AI已然迎来第三次发展浪潮。机器学习推动 AI 进入发展新高度,学习型 AI 正在改变很多事物。无论是监督学习还是无监督学习,AI 都在自主学习。比如,开发者并未按部就班地告诉自动驾驶系统如何开车,算法自己“学会了”如何在不同的道路环境下驾驶并不断提高驾驶水平。再比如,QQ音乐会向你推荐你可能感兴趣的歌曲,程序员并未告诉QQ音乐你的兴趣是什么,QQ音乐的算法自己“推断出了”你的兴趣并不断提高这一判断的准确性。类似的例子不胜枚举。在越来越多的情境下,AI在替代人类做出判断,或者说,这些判断本该由人类做出。 AI在各行各业的应用将带来新一轮自动化,其结果要么是深刻改变人机协作的方式,要么是完全或者部分地替代人类。一些经济学家预测,人工智能系统的普及将显著地减少工作的供应量。在高频率、高容量的任务上,人类不可能和 AI 相匹敌。 2016年的一项研究发现,2000年以来,数字产业并未带来很多新工作,美国仅0.5%的劳动力进入了新兴的科技行业。[1]2013年的一项研究发现,在未来二十年,美国47%的工作具有被自动化的风险。[2]市场调研公司 Forrester 去年的一项研究预测,到2021年,智能系统和机器人将接手美国6%的工作,意味着这些工作将被完全自动化。[3] McKinsey 今年的一项研究发现,到2055年,当前工作任务的一半将被自动化,但仅有5%的工作岗位被完全自动化。[4]蓝领和白领都有可能被 AI 替代,医生、律师、会计师等所谓的高级职业不在除外之列。比如,今年1月,日本一家保险公司宣布将用 IBM 的 Watson 支撑的一个智能系统替代34名保险理赔人员,这将提高生产效率30%,节约工资支出165万美元。[5] 尽管人们认为人工智能的发展、应用和普及将对人类社会产生深远影响,可能伴随着新的社会范式的产生、旧的社会范式的衰落;但是对于人工智能对未来工作究竟会有怎样的影响,人们还远未达成共识。美国前总统奥巴马呼吁“普遍收入制度”以应对 AI 对工作的潜在负面影响;微软 CEO 呼吁对机器人纳税以确保被机器置换下来的劳动者的基本生存。美国的国家人工智能战略和英国的数据战略呼吁重视这个问题,加强对工作结构变化的监测和劳动者的再培训。 二、浪潮之下的AI法律服务会重塑法律服务市场吗? 虽然法律服务一贯具有较强的技术免疫力,但是倚重信息检索、文件整理和逻辑推理的法律事务确实是 AI 发挥“聪明才智”的绝佳领域。1987年,关于法律与人工智能的第一次国际会议在波士顿举行,此时,万维网尚未发明,当然就更谈不上普及了。但是现在,AI 的发展和进步已经开始对法律服务市场产生一定的影响。Jomati 在一项研究《文明2030:不久将来的律所》中提出,经过长期的孵化和实验,“技术突然可以以惊人的速度向前行进了”;在15年内,机器人和人工智能将会主导法律实践,也许将给律所带来“结构性坍塌”(structural collapse),法律服务市场的面貌将大为改观。[6] 过去,法律流程外包在一定程度上造成了法律服务市场的分裂,律所为了效率等目的,或者出于自身能力的不足,将某些特定法律服务外包给第三方,让人们意识到律所并非提供所有法律服务的最佳主体。现在,AI 主导的法律科技(LawTech)正在对法律服务市场产生更为深远的影响,或许造成法律服务市场更进一步的分裂。AI 支撑的专家系统(expert system)和知识机器人(knowledge bot)正在涉足法律服务市场,而且在几乎停滞的律所法律服务市场中(数据显示,律所的业务在过去三年几乎没怎么增长),法律科技领域的创业者和创业公司却获得资本市场青睐,在国内外蓬勃发展,推动整体法律服务市场稳健增长。在市场和技术的双重作用下,法律服务正在进入AI时代。 01| 律师的新助手和替代者:AI法律服务四大领域 一是法律检索(legal research)。各种法律数据库已经在帮助律师更好地进行法律检索,但这很多时候是一件费时费力的事,往往由律师助理或者助理律师来承担。目前,国内外已经有一些可以进行法律检索的 AI 产品,如 ROSS。作为世界上第一个人工智能律师,ROSS 部分受到 IBM 的认知计算机 Watson 支撑,它可以理解自然语言,并提供特定的、分析性的回答,这接近于和人类律师一起工作的体验。截至目前,已经有超过10家主流律所“雇佣了” ROSS。类似 ROSS 的法律类“数字助理”(digital associate)越来越多,其在律所中的身份类似于准雇员。 二是文件审阅(document review)。文件审阅可谓量大,价值低。在这方面,AI 正好可以最大化其用。预测性编程(predictive coding)和利用机器学习算法的软件可以帮助为相关法律文件检索电子信息。案件相关文件的整理、证据和法律发现等任务日益被交给了机器。AI 律师在调查、法律风控、合规相关工作、文件整理甚至尽职调查等法律事务中,都可以扮演重要作用。也许10年前,律师在准备大型并购案件的时候,需要雇员上百个高薪律师来检索成千上万份文件。然而,硅谷的一家电子取证(e-discovery)公司 Blackstone Discovery 却可以以不超过10万美元的代价在几天之内分析150万份法律文件。 此外,AI 在合同审核上正在发挥作用。比如,类似 Beagle 的智能合同服务可以提供人工智能合同分析,帮助用户以更低的成本、更高的效率管理合同,防范法律风险。因此,对于类似文件审阅、合同管理等法律服务,技术可以提供更好、更快、更便宜的服务。在企业端的法律市场,对于创业公司,这可以削减风险,提高效率,同时极大减少时间、人力成本等投入。 三是案件预测(case prediction)。伦敦律所 Hodge Jones & Allen 早已在利用一个“案件结果的预测模型”来评估人身伤害案件的胜诉可能性。这直接导致了2013年的 Jackson 民事诉讼改革,使得人身伤害案件的诉讼成本大大降低了。[7]理论上,AI 能够预测法律纠纷和程序的结果。对过去案件的自动化分析,外加数据挖掘和预测性分析技术,可以得出一些有趣的结果。这种工具对律师而言意义重大。在这一方面,Lex Machina 公司提供的服务,通过对成千上万份法院判决进行自然语言处理,来预测案件结果。比如,其软件可以确定哪位法官倾向于支持原告,基于对方律师过去处理的案件来形成相应的诉讼策略,针对某个特定法院形成最有效的法律论证,等等。迈阿密一家名为 Premonition 的公司甚至宣称可以基于类似案件判决的统计性分析,在起诉前就预测案件的胜诉方。2016年,英国法院对预测性编程持支持态度。 四是咨询服务(advisory...
AI金融革命:智能科技重塑金融服务
AI金融助手

AI金融革命:智能科技重塑金融服务

AI金融技术正在迅速切入现实场景,推动医疗管理、保险、海关报关流程、支付商户营销等业态发生颠覆性变化。从创投视角来看,AI金融的发展趋势值得关注。欧美创投机构和金融资本正关注我国AI金融场景化应用的效果,并将其中优秀的技术“复制”到其他国家。我国基于个人行为、社交、电商等数据的大数据征信技术“全球化”进展备受看好。此外,无人驾驶技术驱动的AI财险和区块链驱动的合约“线上化”也是AI金融领域的四大新亮点。
人工智能赋能金融创新:智能客服、智能投顾、智能风控引领金融业态变革
AI金融助手

人工智能赋能金融创新:智能客服、智能投顾、智能风控引领金融业态变革

本文探讨了我国新一代人工智能在金融领域的应用。智能金融是人工智能技术驱动的金融创新,其核心技术包括智能客服、智能投顾和智能风控。其中,智能客服的技术难度较大,当前采用较为新锐的做法是将传统的NLP技术打底,加上语言学结构,结合新的机器学习和深度学习、以及金融知识图谱的方法,融合地去把整个语义理解抽象化后做降维。智能投顾和智能风控分别是利用大数据和人工智能技术对风险进行及时有效的识别、预警、防识,包含数据收集、行为建模、用户画像和风险定价四个流程。当前,国内如招商银行、工商银行、兴业银行等多家银行都在智能投顾领域进行实践并积累了初步经验,也有多家银行展示了对此的浓厚兴趣。
《ChatGPT助力退货大成功:人工智能助手的新用途》
AI客服助手

《ChatGPT助力退货大成功:人工智能助手的新用途》

文章介绍了人工智能助手ChatGPT在生活中的应用,例如退货、写文章等。最近一位博主分享了自己使用ChatGPT成功退款的经历,引起了许多人的关注和讨论。尽管有些网友认为这是违反退货政策的行为,但也有人认为ChatGPT的出现为消费者提供了更多方便。随着技术的发展,人工智能可能在更多领域发挥巨大作用,例如取代部分人类工作。
没有身体,会是ChatGPT最大的障碍吗? | 追问顶刊
AI医师助手

没有身体,会是ChatGPT最大的障碍吗? | 追问顶刊

在人工智能(AI)发展初期,Hubert Dreyfus在其著名的1972年作品What Computers Can’t Do[1]中论述*,由于计算机与人类有诸多的不同,它们永远无法具备智能。近来,Jaron Lanier在《纽约客》杂志上撰文,强调计算机不过是工具而已。正如他所作文章标题所言,“没有所谓的人工智能”[2]。这些AI批评家的观点犀利,但倒并不是在反技术。实际上,Dreyfus的著作激发了人工智能领域许多创新,而Lanier则是虚拟现实的提出者,也是一位长期创新者。然而,尽管Dreyfus和Lanier们洞若观火,但他们却混淆了两个重要的问题。 *注:中译本为《计算机不能做什么——人工智能的极限》。作者批判了基于符号处理的人工智能研究,强调人类智能不仅仅会处理对符号、规则或是事实,它还根植在人类的身体经验和其所处的特定环境中。他的观点在当时引发了巨大争议。随着神经网络和机器学习的发展,对他的批评才逐渐被重新审视和讨论。 一个是技术问题:计算机是否能够具备智能; 另一个则是科学问题:人类及其他动物是如何表现出智能的。 要解答这两个问题,首先要对“智能”这个概念达成共识。本文将遵循常规用法,并避免仅将“智能”定义为成年人所特有的能力,而是将其视为解决复杂且认知上具有挑战性的问题的能力。按照这种理解方式,关于计算机是否能具备智能的问题似乎已有答案。虽然Dreyfus和Lanier可能不愿意承认,但多年来的研究已明确显示,答案是肯定的。 ChatGPT及其他大语言模型近期的跃迁,是数十年技术创新的成果。LLMs能够就几乎任何主题生成清晰、令人信服的文章;它们能在科研中起作用;也能生成可编译并运行的计算机代码;而最近,ChatGPT甚至被病人评价为在医疗准确性上与人类医生相当,甚至更具同情心[3]。 当然,ChatGPT并非完美无瑕。例如,尽管其创造者做出了大胆尝试,但我们依然可以轻易发现,来源于互联网的大语言模型训练集中潜藏着种族偏见和性别歧视[4]。此外,ChatGPT还常常做出其创造者所说的“幻觉”,即凭空编造事实。 幻觉是否意味着大语言模型缺乏智能?也许并不是这样。由于大语言模型通过产生统计上可能的词序来回应查询,它们甚至没有尝试对世界做出真实陈述。大语言模型旨在解决那些复杂且在认知上具有挑战性的问题,即如何生成清晰的句子来回应查询,在这项任务中它们表现出色。可以将大语言模型比作竞选公职的政客:两者对任何问题都有现成的答案;两者也都倾向于凭空编造事实。当然,政客具有智能,大语言模型也是——即使两者都需要经过事实的核查。 然而,尽管当前的大语言模型展现出一定程度的智能,但它们与人类的智能并不相同。例如,根据语料库研究,美国儿童到两岁时听到的英语单词数量在1000万到3000万之间(不幸的是,这个数字与社会经济地位存在悲剧性的相关[5])。相比之下,人类儿童的语言学习方式与大型语言模型的训练过程迥然不同。以ChatGPT-3.5为例,该模型在大约570GB的文本数据上训练,涵盖约1150亿个参数。换句话说,ChatGPT需要的训练集是典型儿童所听到单词数量的5000多倍,这一点在比较它们的学习方式时尤为明显。 要回答人类(和其他动物)如何能够表现出智能这一科学问题,首先需要认识到我们与大语言模型有何不同。虽然人类能够熟练地使用文本信息并从中迅速学习(就像大语言模型一样),但与文本的互动仅仅是我们理解周围世界的众多方式之一。阅读和写作作为进化较新、发展上较先进的技能,并非是每个人都能轻易掌握的。在人类大部分历史中,我们——与其他动物一样——主要通过与外部世界和同类的具身互动来了解周遭环境;而直到今天,绝大多数人依然在依赖这种方式来认识世界。 根据当代认知科学中的具身观点[6],理解人类智能的关键在于承认我们的具身性。仅凭任何计算系统(包括大型语言模型)是无法完全解答科学问题的。从这个观点来看,我们不仅是逻辑思维的主体,更是不断与物质、社会、文化和技术环境互动的活生生的生物。 作为生物,我们有特定的新陈代谢需求,这与我们的身体性质紧密相关。为满足这些需求,我们拥有调校得恰到好处的运动和感知系统。以青蛙为例,它以捕食苍蝇为生,它们是捕捉这些食物的大师,正如现代人善于寻找杂货店和餐馆一样。 在生命体中,感知和移动方式紧密相连,感知世界旨在引导行动,并常常包含行动本身。人类和其他动物通过移动来体验周围世界,比如转动眼球、伸长脖子、走近物体以便更好地观察事物。这种活动不仅仅是观察的辅助,它实际上是观察的一部分。 换言之,从具身的角度看,人类的视觉不仅仅是眼睛或大脑某区域的功能,而是整个动态系统的协作。看见世界的主体当然包括大脑和眼睛,但这些眼睛总是在移动(多亏了肌肉),而且它还嵌入在一个移动的动物头部、颈部和躯干上。要解释人类智能,必须考虑这整个的具身系统。这种体验与行动之间的紧密联系是人类智能的核心特征,但这是大语言模型所欠缺的。大语言模型的智能不是具身的,因此,它们的智能与我们的不同。 另一个区别在于,虽然ChatGPT的运作和训练可能需要消耗大量(且未公开的)能量,但与生物不同,大语言模型并不像动物那样具有新陈代谢的需求。我们的代谢需求暗示着我们对世界中情境体验内在地带有积极或消极的评价[7]。生物因需求而存在,因此有些情境会比其他情境体验起来更理想。即便是单细胞生物也会对其环境中特定化学物质的不同浓度做出不同的反应,以努力维持在其生存所需的条件范围内。从根本上来说,人类的认知是一套我们用来维持生存的工具,这就是为什么我们会体验到某些情境是好的,而另一些则不是。我们人类受到温暖、饱腹和被爱的需求驱动,这种动机渗透我们的体验,甚至影响到看似最公允的认知过程。 人类的生活本质上是社会化的。我们在另一个人体内开始我们的生命,并以完全无助的状态出生。我们在与其他人类共存的世界中成长,特别是那些提供我们温暖、食物和爱的照顾者,他们是我们继续前行的支持。与大型语言模型相比,我们之所以能更快地学习语言,部分原因在于,对我们来说,词语的出现总是伴随着面部表情、语调、手势以及时间延续的人际互动背景。这些互动不仅是交流的媒介,还是语言学习的关键因素。此外,我们还生活在特定的文化和技术环境中,这些环境深刻塑造并促进我们的活动和思维方式。作为具身的生物,我们在复杂的人际情境中航行,调整自己的面部表情、语调和手势,以适应不断变化的环境和我们在其中的角色[8]。例如,我们作为演讲者进入讲堂的方式与作为听众时截然不同;我们在东京的行为模式也可能与在多伦多时有所不同。 人类智能的一个关键特征是我们的适应能力,特别是对新技术的适应能力。我们不仅能够采用新技术,还能通过它们改变我们的思考和生活方式。书写文字,作为一项“古老”技术,就是这种适应能力的早期体现。到了2023年,智能手机和人工智能(包括大语言模型)无处不在,它们通过改变我们的环境和所需的认知技能,从而改变我们的认知模式[9]。这一转变,无论好坏,已成定局,无法逆转。 这些差异综合起来,指向了John Haugeland所说的“在乎”(giving a damn)的生活方式和智能方式*[10]。人类在乎,“在乎”不仅仅是对维持个体存在和与世界及他人关系的承诺,更包括对自我认知状态的深切关心——关心自己是处于“幻觉”,还是在述说真相。ChatGPT无法关心这些事情,因为它不是一个具身的有实体生物,不是一个活着并参与其生成文字所描述的世界的生物。当我询问ChatGPT这个问题时,它确认大语言模型并不在乎。当然,未来的人工智能模型(可能会融合大语言模型技术)或许会被构建成在乎这些事情的样子。 *注:出自John Haugeland的Giving a Damn: Essays in Dialogue with John Haugeland。其中“在乎”(giving a damn)指的是一种根植于个体身份和存在方式的深刻承诺和关注。这意味着个体的认知过程和智能表现不仅仅是冷冰冰的信息处理,而是与个体的情感、价值观和社会互动密切相关。 我们从如今的大语言模型中学到的是,智能的表现方式不止一种。我们的智能方式并非唯一,也不是大语言模型所采用的方式。这一认识并没有从技术成就上削弱大语言模型,但这清楚地表明,就回答关于人类及其他动物智能的科学问题而言,大语言模型并无太大帮助。认知科学家们仍有大量工作要做。开展这些工作需要我们仔细关注我们作为具身的存在——我们是活着的、能移动的、社会化的、有文化的生物,我们是会在乎的生物。 阅读原文: Chemero, A. LLMs differ from human...
谷歌正式推出“医疗ChatGPT”
AI医师助手

谷歌正式推出“医疗ChatGPT”

2022年底,OpenAI推出的基于大语言模型(Large language model,LLM)的聊天机器人ChatGPT展示了令人印象深刻的强大能力。 为应对异军突起的OpenAI,谷歌在今日推出了其生成式人工智能模型——Gemini,谷歌表示,这是迄今为止功能最强大、最通用的人工智能大模型,其在许多测试中击败了OpenAI最近的GPT-4。 除了与OpenAI的直接竞争外,谷歌还致力于开发其他更专业的生成式人工智能项目,其中就包括医疗人工智能大模型——MedLM。谷歌表示,该模型已经可以通过公司的Vertex AI平台向美国谷歌云客户提供,该平台使用机器学习工作流来指导用户通过训练、评估和部署生成式人工智能模型的过程。与此同时,美国以外的某些市场可以“预览”这些工具。 MedLM模型基于Med-PaLM 2,Med-PaLM 2是谷歌进军医疗人工智能大模型的第二次尝试。去年,其开发的Med-PaLM模型因通过了美国医疗执照考试(USMLE)而成为头条新闻(准确率为67%),而今年,Med-PaLM 2进一步将准确率大幅提升至86.5%,根据谷歌的说法,该分数相当于“专家”医生水平。 谷歌表示,MedLM模型有两个版本,其用途之间的差异在于,第一个MedLM模型更大,专为复杂任务设计。第二个是中等模型,能够进行微调,最适合跨任务扩展。谷歌表示,在未来几个月会将基于Gemini的模型集成到MedLM模型中,以进一步扩展其人工智能功能。 谷歌表示,此次新推出的医疗人工智能大模型——MedLM,旨在用于整个医疗保健行业的各个方面,包括医院、药物开发、面向患者的聊天机器人等。例如,美国医疗保健巨头HCA Healthcare正在将MedLM模型用于记录临床医生与患者之间的对话,并将其自动转译为医疗记录,从而提高记录的质量。AI药物发现平台BenchSci正在使用MedLM模型快速筛选大量临床数据并识别某些疾病和生物标志物之间的联系。 医学是一项人性化的事业,其中语言是临床医生、研究人员和患者之间的沟通互动的关键。近年来,人工智能的进步为其在医学领域的应用带来了新的希望。但AI模型主要是单任务系统,缺乏表达能力和交互能力,还可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此,现有的AI模型所能做的和在现实世界的临床工作流程中对它们的期望之间存在着不一致,使其难以转化为真实世界的可靠性或价值。 2023年7月,谷歌和谷歌旗下人工智能公司DeepMind的研究人员在国际顶尖学术期刊 Nature 上发表了题为:Large language models encode clinical knowledge 的研究论文。 该论文展示了谷歌开发的一个专精医学领域的大语言模型——Med-PaLM,其能够很好的回答医学问题。 为评估大语言模型(LLM)编码临床医学知识的能力,研究团队探讨了它们回答医学问题的能力。这项任务非常具有挑战性,因为为医学问题提供高质量的答案需要理解医学背景,回忆适当的医学知识,并根据专家信息进行推理。 在这项研究中,提出了一个基准,称为MultiMedQA:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及HealthSearchQA——这是一个新的数据集,包含3173个在线搜索的医学问题。通过这一基准来评估大语言模型回答医学问题的真实性、在推理中使用专业知识、有用性、准确性、健康公平性和潜在危害。 表现令人鼓舞 研究团队随后评估了PaLM(5400亿参数的大语言模型)及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平的表现。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的大语言模型达17%,达到了67.6%的准确率,达到了通过考试的标准(60%)。不过,虽然FLAN-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。 为解决这一问题,研究团队使用一种称为设计指令微调(instruction prompt tuning)的方式进一步调试Flan-PaLM适应医学领域。设计指令微调是让通用大语音模型适用新的专业领域的一种有效方法。 结果产生的新模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师做出的回答(92.9%)。同样地,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.9%,相当于医师所作回答(6.5%)。 升级版——Med-PaLM 2 值得一提的是,这篇在 Nature 论文中描述的 Med-PaLM 模型于2022年12月推出,而在今年5月份,谷歌在预印本平台发表论文,推出了升级版的Med-PaLM 2。 论文中显示,Med-PaLM 2是第一个在美国医疗执照考试(USMLE)类问题上达到专家级表现的大语言模型,能够正确回答多项选择题和开放式问题,并对答案进行推理,准确率高达86.5%,大幅超越了Med-PaLM以及GPT3.5。 Med-PaLM 2根据14项标准进行了测试,包括科学事实、准确性、医学共识、推理、偏见和危害,由来自不同背景和国家的临床医生和非临床医生进行评估。研究团队还发现该模型在回答医学问题方面仍存在一些差距,但并未具体说明,谷歌表示,进一步开发和改进该模型以解决这些差距,并了解大语言模型如何改善医疗保健。 已开展临床测试 据报道,Med-PaLM...
《ChatGPT:AI大模型的“iPhone时刻”吗?》
AI创业助手

《ChatGPT:AI大模型的“iPhone时刻”吗?》

这篇文章主要讨论了ChatGPT这款人工智能助手的发展及其对未来产生的影响。首先,作者提到ChatGPT在一年的时间里进化迅速,引起了业界对于其是否会超越GPT-3.5的担忧。然而,大模型热潮已经势不可挡,全球各大科技公司纷纷加入竞争。接着,文章提出大模型将带来产业机会、技术突破和未来展望,并探讨了大模型在互联网大厂和创业公司中的机会与挑战。最后,文章提到了关于大模型平民化的讨论,认为其过程蕴含着大量机会,但也需要解决计算成本等问题。
ChatGPT引发的AI狂飙:2023年AI趋势预测
AI创业助手

ChatGPT引发的AI狂飙:2023年AI趋势预测

本文主要探讨了人工智能大模型的发展现状和影响。随着以ChatGPT为代表的大语言模型的出现,人工智能领域发生了翻天覆地的变化,引发了全球范围内的AI“狂飙”。目前,我国和其他国家的AI大模型研发已成为主流,且应用范围广泛。然而,这也带来了关于AI是否会取代人类的担忧。幸运的是,GPT模型这种涌现智能的现象并未违背热力学第二定律,反而显示出了人工智能技术的巨大潜力。作者认为,如果善用大模型,它们将在未来成为许多领域的重要合作者。