BloombergGPT在金融领域有多厉害? | 高金智库
AI金融助手

BloombergGPT在金融领域有多厉害? | 高金智库

随着人工智能技术的快速发展,大型语言模型(Large Language Model,下文简称LLM)已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力,但市场上暂未有专攻金融领域的LLM。 在此背景下,彭博社(Bloomberg)和约翰霍普金斯大学的Shijie Wu等在BloombergGPT: A Large Language Model for Finance一文中重磅发布了为金融界打造的LLM——BloombergGPT。 报告说明,对BloombergGPT的评估显示,其在金融任务上的表现显著优于现有模型,同时不会牺牲通用LLM的基准性能,因此BloombergGPT在金融领域具有不可替代性。 因评估方式以及模型本身的局限,BloombergGPT是否会对金融业带来颠覆性的变革还有待商榷,但不可否认的是,随着技术的进步,BloombergGPT在不同金融业务场景下都将具有广泛的应用和可观的潜力 。 *本文作者:毛诗倩 上海交通大学中国金融研究院研究助理 潘   薇 上海交通大学中国金融研究院CAFR-信也科技联合研究实验室研究助理 01 什么是BloombergGPT? 自然语言处理(Nature Language Processing,下文简称NLP)是计算机科学和人工智能领域的重要方向,研究如何让计算机读懂人类语言,目前NLP在金融领域应用越来越广泛而复杂。随着人工智能技术的快速发展,LLM已经成为NLP的佼佼者,是当下AI和NLP研究与产业中最重要的方向之一。 LLM是指包含数千亿(或更多)参数的可以通过处理大量自然语言数据的深度学习模型。目前火爆的ChatGPT模型就是一种LLM,证明了训练非常大的LLM的强大优势。但目前的LLM大多是通用性的,而因金融行业的复杂性以及大量的金融术语,市场上需要一个专攻金融专业的模型。 彭博社是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。彭博社精于以创新的技术来快速、精准地传递数据、新闻和分析,这也是彭博终端的核心优势所在。 今年3月30日,彭博社最新发布的报告显示,其构建了迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM——BloombergGPT,以支持金融行业内的各类任务。 彭博社依托其四十多年来积累的大量金融数据源,创建了一个包含3,630亿词例(token)的金融数据集FinPile,又与公共数据集叠加成为了包含超7,000亿词例的大型训练语料库。利用庞大的数据集,并基于通用和金融业务的场景进行混合模型训练,训练了包含500亿个参数的大规模生成式人工智能模型BloombergGPT,以全方位支持并改善金融领域的NLP任务。 BloombergGPT的推出意味着这项新技术在金融领域的发展和应用已经迈出了第一步。 02 对BloombergGPT的模型评估 报告中将BloombergGPT与其他两个参数量级等相匹配的模型GPT-NeoX,OPT66B和一个参数更大的模型BLOOM176B在金融领域和通用领域分别进行了比较评估:金融领域评估以验证对高质量的金融特定数据进行训练将在金融任务中产生更好的结果;通用领域评估以与市场上其他模型在通用任务上做对比。 结果表明,BloombergGPT模型在金融任务上的表现远超类似规模的开放模型,在通用任务上优于其他相同参数量级的模型,并在某些任务上甚至超过了参数量更大的模型,证明了其专注于金融领域的不可替代性。(一) 金融领域评估 金融领域评估中分成了两组:一组是外部金融任务(Public Financial Tasks),收集了包括一系列NLP任务的公开金融数据集;另一组是Bloomberg金融任务(Bloomberg Financial Tasks),收集了Bloomberg内部高质量评估集中提取的任务,以测试情绪三分类和命名实体识别(Named Entity Recognition,简称NER)。 1、 外部金融任务(Public Financial Tasks) 外部金融任务以衡量BloombergGPT在金融领域的有效性,主要测试为以下五项:...
GPT-4变更强了!新版ChatGPT律师考试赢9成考生
AI律师助手

GPT-4变更强了!新版ChatGPT律师考试赢9成考生

OpenAI推出了其人工智能工具的最新版本,该工具催生了炙手可热的ChatGPT和Dall-E服务,并在被称为生成式人工智能的领域掀起了科技公司的战火。 新版本称为GPT-4,这家初创公司称该版本提升了准确性、创意性和协作性。微软公司(Microsoft Corp.)为OpenAI投资了逾100亿美元,该公司称这个新版本的人工智能工具已经在为其必应搜索引擎提供支持。 GPT-4全名“生成式预训练转换器4”(generative pretrained transformer 4),它将面向OpenAI的ChatGPT Plus付费用户,开发人员注册后可使用它开发应用程序。3月14日,OpenAI表示:“基于我们的内部评估,该工具提供有据可循的回答的几率比GPT-3.5高40%。”新版本还可处理文本和图像查询,用户可提交问题及相关图片,请GPT-4给予描述或解答。 OpenAI在2020年发布了GPT-3,之后结合GPT-3.5,创建了图像生成工具Dall-E及聊天机器人ChatGPT。这两个产品抓住了公众的想象力,也激发其他科技公司在人工智能领域的进取心。从那时起,人们关于下个版本能否更智能、能否承担更多任务的议论越来越多。 OpenAI称摩根士丹利(Morgan Stanley)正在使用GPT-4来编排数据,电子支付公司Stripe Inc.也在测试它能否帮助打击欺诈。其他客户还有语言学习公司Duolingo Inc.、可汗学院及冰岛政府。 Be My Eyes是一家致力于为盲人或弱视群体开发工具的公司,该公司也在一项虚拟志愿者服务中使用了该软件,用户可将图像发送至人工智能驱动的平台,后者会回答问题和提供视觉辅助。 OpenAI总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)表示:“我们真的开始开发出功能强大的系统,这些系统能带来新的想法,帮你理解一些原本难以理解的事物。”他说新版本更擅长于在企业盈利报告中提取特定信息,或提供有关美国联邦税法的某个具体部分的回答,简言之,就是通过梳理“繁琐的商业法律术语”找到答案。 OpenAI表示,GPT-4在律师资格考试(Uniform Bar Examination, UBE)中可以击败90%的考生。在满分1600分的美国大学入学测验SAT拿到1300分,在高中的大学先修课程测验中,不论是生物、微积分、总体经济学、心理学、统计学和历史都拿到5分的满级分。 至于前一版本的ChatGPT并无法通过律师考试,在大部分高中的大学先修课程测验中,也无法拿到那么高分。 和GPT-3一样,GPT-4也没有谈论时事的能力,其训练数据基本都来自2021年9月以前。 早期版本的ChatGPT智能手机聊天界面 在2023年1月的采访中,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)曾试图降低人们的期望。 “关于GPT-4的谣言天花乱坠,”他说,“我不知道这一切是从何而来。人们在乞求失望,他们一定会失望。”该公司首席技术官米拉·穆拉蒂(Mira Murati)本月早些时候对《快公司》(Fast Company)表示,“炒作太多不是好事。” GPT-4是一种被称为大型语言模型的人工智能系统,它能分析互联网的海量文字,以确定如何生成模拟人类的文本。近几个月来,该技术激起了许多兴奋,也引发了不少争议。除了担心文本生成系统会被用于课业作弊外,它还可能固化各种偏见和错误信息。 OpenAI在2019年最初发布GPT-2时,出于对恶意使用的担忧,选择仅公开部分模型。研究人员指出,大型语言模型有时会偏离主题,或涉及不恰当或种族主义的言论。对于训练和运行人工智能模型所需的庞大计算能力伴随的碳排放,他们也深感担忧。 OpenAI称他们花了半年时间提升这款人工智能软件的安全性。例如,GPT-4的最终版本更擅长处理(例如)如何制造炸弹或去哪购买廉价香烟的问题,对于后一个问题,它现在会在提供可能的省钱方法的同时,发出吸烟有害健康的警告。 “GPT-4仍有许多已知的局限性,我们正在努力解决,比如社交偏见、虚幻信息和敌意输入,”该公司3月14日在一篇博客中写道。这里指的是提交旨在激发不利行为或破坏系统的信息或问题。“随着模型的普及,我们会鼓励和提升透明度,改善用户学习,推进更广泛的人工智能素养。我们还致力于增强用户参与塑造模型的途径。” 该公司拒绝提供有关GPT-4的具体技术信息,包括模型规模。公司总裁布罗克曼表示,OpenAI预计未来会有一些公司花费数十亿美元购买超级计算机来开发尖端模型,其中一些最先进的工具将带来风险。OpenAI希望对部分工作内容保密,以便为公司争取“喘息空间,以真正专注于安全,落实安全”。 这种做法在人工智能领域存在争议。一些公司和专家认为,通过提升开放性,将人工智能模型公之于众,可以提高安全性。OpenAI还透漏,虽然未公布模型训练的部分细节,但该公司在提供更多信息,说明它在根除偏见和让产品更负责任方面做了那些工作。 OpenAI政策研究员桑德希尼·阿加瓦尔(Sandhini Agarwal)表示:“实际上,我们对于安全训练阶段一直非常透明。” 这段时间,OpenAI和背后的微软以及这个新兴行业里的其他竞争对手们发布了大量关于人工智能的新东西。包括新的聊天机器人、人工智能加持的搜索引擎,以及将该技术纳入销售和办公人员使用的企业软件的新方法,等等。和OpenAI近期的其他版本一样,GPT-4的训练也是在微软的Azure云平台上进行的。 3月14日早些时候,谷歌(Google)支持的初创公司Anthropic(由OpenAI前高管创立)宣布向企业客户发布Claude聊天机器人。 与此同时,Alphabet Inc.旗下的谷歌表示将允许客户使用该公司的一些语言模型,微软则定于3月16日公布其关于如何为Office软件整合人工智能的计划。 新一批的通用人工智能模型也引发了关于版权和所有权问题的讨论,包括如果人工智能程序创建的内容与现有内容很相似时要怎么处理?以及这些系统是否有权使用其他人的艺术、文字和编程进行训练。OpenAI、微软及其竞争对手已经面临相关诉讼。
42位AI医生“入驻”清华医院,开启300余种疾病诊断
AI医师助手

42位AI医生“入驻”清华医院,开启300余种疾病诊断

医学前沿、行业新闻, 全面把握最新医圈动态,一篇搞定! 01 医保局统一整合规范现行放射检查项目 02 《柳叶刀》重磅:全球8.2 亿成年糖尿病患者,中国位列第二 03 42位AI医生“入驻” 清华医院,开启 300 余种疾病诊断 04 无锡一医院违规被重罚,执业许可被吊销 05 23省医保新变革:“家庭共济” 范围拓展近亲属 >> 医保局统一整合规范现行放射检查项目 2024年11月22日消息,国家医保局近日印发《放射检查类医疗服务价格项目立项指南(试行)》。该《指南》对现行放射检查项目统一整合规范,将其整合为26项,依成像技术分类。同时,在主项目下设“人工智能辅助诊断”扩展项,利用人工智能辅助诊断的,执行与主项目相同价格且不重复收费。此外,实体胶片从项目价格构成中剥离,由患者按需选购。国家医保局还表示,下一步将指导各省份关注大型检查设备采购价下降趋势,合理下调放射检查服务价格,促进检查结果互认,减轻群众就医负担。(中国青年报) 好医生点评 国家医保局印发放射检查类价格项目立项指南意义重大。整合为26项并分类,使项目更清晰规范。“人工智能辅助诊断”扩展项不重复收费,保障患者权益,避免额外负担。实体胶片按需选购,打破捆绑收费模式。且后续还将推动价格合理下调及检查结果互认,这一系列举措直击看病贵、检查繁琐等痛点,彰显医保局以民为本,积极优化医疗服务价格体系,助力医疗资源合理利用,值得点赞。 >> 《柳叶刀》重磅:全球8.2 亿成年糖尿病患者,中国位列第二 2024年11月23日《柳叶刀》新发布了糖尿病患病率和治疗趋势的研究报告,显示2022年统计患糖尿病的8.28亿成年患者中,超过四分之一(2.12亿)居住在印度,另有1.48亿居住在中国,其次是美国(4200万人)、巴基斯坦(3600万人)、印度尼西亚(2500万人)和巴西(2200万人)。中国已然稳坐“糖尿病大国”。糖尿病的高发与肥胖和不健康饮食密切相关,尤其在太平洋岛国、加勒比地区和中东地区,糖尿病发病率尤为突出。研究人员呼吁加强糖尿病普及检测和创新筛查方法,包括利用社区资源和延长医疗服务时间,以提高中低收入国家糖尿病诊断率和治疗覆盖率。 好医生点评 有数据显示,自1990年以来,全球糖尿病患者人数翻了四倍,从1.98亿增至8.28亿。糖尿病的患病率在男性和女性中都大幅增加,其中印度和中国是受该病影响严重的国家。低中收入国家的糖尿病患者往往更年轻,而且由于缺乏有效治疗,他们面临终身并发症风险,包括截肢、心脏病、肾病或失明和过早死亡。(澎湃新闻) >>42位AI医生“入驻”清华医院,开启 300 余种疾病诊断 11月23日,有消息称首家“AI医院”Agent Hospital正在进行内测,将于年底正式上线,明年上半年对公众开放。清华大学智能产业研究院执行院长刘洋教授提到:AI虚拟医院对真实医院的设施和流程进行模拟,目前构建的42位AI医生分布在儿科、耳鼻喉科等21个科室,覆盖了300余种疾病。 记者通过Agent Hospital内测版看到,42个AI医生在医院里坐诊,他们在阅读医学文献,与虚拟/真实的病人交互并做诊疗决策,不断从成功诊疗案例中总结经验、从失败案例中反思教训,在诊疗近万名虚拟病人后,做出诊疗方案……(人民日报健康网客户端) 好医生点评 海量患者是帮助AI医生进化的关键。刘洋介绍,他们同时构建了超过50万个来自不同国家地区、覆盖各个年龄段、患有不同疾病的AI患者,这些AI患者可以是人类患者在虚拟世界的数字化“分身”,也可以由人工智能大模型结合权威医学知识库和少量公开人类患者病例自动合成。在我们的设想中,随着AI医生的不断自我进化,未来将能够介入到真实的医疗应用场景中,辅助人类医生完成绝大多数工作,这也是智慧医疗领域最受关注的应用落地方向。(人民日报健康网客户端) >>无锡一医院违规被重罚,执业许可被吊销 近日,无锡一医院有限公司遭重罚。无锡市医疗保障局于2024年10月28日出具行政处罚决定书(锡医保罚字【2024】第24010006号),因其在2022年1月1日至2024年9月22日存在虚假就医、伪造变造资料、虚构医药服务项目等违法事实,对其罚款58958121.95元。随后,10月29日的锡卫医罚【2024】0014号行政处罚决定书显示,该医院因重复使用MRI、CT等影像骗取医保基金且伪造医学文书,被无锡市卫生健康委吊销医疗机构执业许可证,无锡市卫健委已在官网发布注销改医院的公告。(财联社) 图源:无锡市人民政府官网 好医生点评 医疗行业绝非法外之地,任何妄图通过违规手段谋取私利的行为都必将受到严惩。它也给其他医疗机构敲响了警钟,必须坚守医疗道德与法规底线,合法合规经营,切实保障患者权益和医保基金安全,如此才能在行业中立足,否则终将自食恶果。这一事件警示着,医疗监管时刻保持高压态势,加大惩处力度,如此才能保障医疗行业的健康发展,让民众能安心就医。 >>23省医保新变革:“家庭共济” 范围拓展近亲属 2021年,国办印发文件,是将职工医保个人账户使用范围从职工本人,扩大到其参加基本医保的“配偶、父母、子女”。近日,国办再次印发文件,进一步将职工医保个人账户共济亲属的范围由“配偶、父母、子女”,扩大至其参加基本医保的“近亲属”。 截至目前,国内已有23个省份将职工医保个人账户共济范围由“配偶、父母、子女”扩大至“配偶、父母、子女、兄弟姐妹、祖父母、外祖父母、孙子女、外孙子女”。其中,辽宁、浙江、海南、四川、宁夏5省份为近一个月新增。31个省份及新疆生产建设兵团已实现职工医保个人账户省内跨统筹区共济。据悉,此前在(中国日报网) 好医生点评...
华泰研究 |  本周精选:大圆柱电池、金融GPT、转基因深度、AI大模型+金融、4月战术配置、PMI
AI金融助手

华泰研究 | 本周精选:大圆柱电池、金融GPT、转基因深度、AI大模型+金融、4月战术配置、PMI

华泰研究“本周精选”汇集本周最受读者欢迎的研究报告,点击下方标题可查阅全文。 01 电新:新能车前沿技术之五—大圆柱电池 02 计算机:从BloombergGPT看金融GPT机遇 03 农业 • 转基因百页深度:生物育种产业化元年的到来 04 电子:AI大模型+金融—掘金行业数据富矿 05 策略:4月战术配置—经济越向上,久期越下沉 06 宏观:PMI再超预期、内需回升行稳致远 01 电新:新能车前沿技术之五—大圆柱电池 -点击图片查阅全文- 20年9月,特斯拉正式发布4680大圆柱电池,从单体到系统层面对电池进行了全面升级,使其安全性、续航、快充等性能得到了显著提升。相关车企、电池企业自此争相布局大圆柱电池,以期抓住动力电池市场。同时在户用储能领域,国内相关电池企业已从22年开始布局适用储能市场的磷酸铁锂大圆柱电池。我们预计27年全球大圆柱电池装机量有望达429GWh,对应市场规模2144.8亿元。产业节奏上,我们预计今年大圆柱电池将从小批量生产转向量产放量,带动相关电池企业受益。同时大圆柱电池引入的创新技术和化学体系也有望为上游的设备厂、材料厂等带来新的发展机会。 申建国 S0570522020002 边文姣 S0570518110004 | BSJ399 2023-04-02 02 计算机:从BloombergGPT看金融GPT机遇 -点击图片查阅全文- 2023年3月30日,Bloomberg发布专为金融领域打造的大语言模型(Large Language Model,LLM)BloombergGPT,实现了LLM在金融垂直场景的加速落地。从测试结果来看,BloombergGPT在保证LLM通用性能的基础上,更加聚焦金融场景,有效实现了LLM与金融垂直领域知识的深度融合。BloombergGPT的成功,佐证了“开源模型+高质量垂直数据”LLM搭建思路的有效性,金融GPT率先在证券场景落地,同时建议关注后续GPT在银行领域的业务机会。 谢春生 S0570519080006 | BQZ938 2023-04-02 03 农业 • 转基因百页深度:生物育种产业化元年的到来 -点击图片查阅全文- 本篇报告从地缘优势和技术视角出发,梳理分析了转基因作物在全球应用现状的成因、国际巨头崛起的动力、乃至全球粮食贸易格局变迁的隐线,构建了以功能基因和专利布局来评估国内生物育种产业链公司的分析框架。我们认为,玉米和大豆在中国的生物育种产业化即将启动,为中国农业带来新机遇,建议积极布局种业。 熊承慧 S0570522120004 | BPK020 冯源 S0570522070001 2023-03-31 04 电子:AI大模型+金融—掘金行业数据富矿 -点击图片查阅全文- 金融行业数字化程度领先,拥有数据富矿,有望成为AI大模型率先落地的垂直领域之一。应用端,我们看到生成式和理解式大模型在银行、保险、资管、投研、投顾等多个细分领域正在落地或拥有潜在落地场景,帮助金融机构降本增效。 黄乐平 S0570521050001 | AUZ066...
大幅超越 ChatGPT:GPT-4震撼发布!能考上律师、能玩梗图……
AI律师助手

大幅超越 ChatGPT:GPT-4震撼发布!能考上律师、能玩梗图……

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI(在美国成立的人工智能研究公司,ChatGPT 的开发机构)自己。在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI下一步的发展会是什么,很多学者都提到了多模态,我们并没有等太久。今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 “GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,”OpenAI 工程师在介绍视频里说道。似乎是想一口气终结这场游戏,OpenAI 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API(应用程序编程接口)。另外,微软营销主管在 GPT-4 发布后第一时间表示:“如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。”是的,微软的新必应早就已经用上了GPT-4。 01 GPT-4:我 SAT 考 710,也能当律师GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。OpenAI 花了 6...
【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生
AI医师助手

【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生

  新智元报道   编辑:张乾  弗朗西斯  文强 【新智元导读】2017年4月,Hinton在接受《纽约客》采访时说:“5年内深度学习就能超过放射科医生,从现在起就停止培训放射科医生”。此言论一出,再一次引发全球关于AI正在取代医生的焦虑讨论。IEEE Spectrum在2018新年伊始推出专刊“AI vs Doctors”,统计了从2016年5月至今,AI在医疗领域的进展,并对比各大细分领域AI与人类医生能力差距,人工智能正在医生的主场获取成功,哪些医疗诊疗行业已被AI超越?机器人医生是人类的未来吗? 2017年4月,Hinton在接受《纽约客》采访时说:“作为放射科医生你就像卡通里的歪心狼一样,你已经冲出悬崖很远,但还没有往下看,实际上你的脚下空空如也。”商用的深度学习乳腺癌检测系统已经在开发中,Hinton说:“很显然,5年内深度学习就能超过放射科医生,或许会用10年,我在医院里说过,结果反响很糟糕。” 实际上,Hinton在医院里说的是,“应该从现在起就停止培训放射科医生”。 Hinton告诉《纽约客》记者:“放射科医生的角色从做感知(perceptual)的事情演变而来,这可能由一只训练有素的鸽子完成。”Hinton对自动化医学未来的预测建立在一个简单的原则基础之上:“在有大量数据的地方,采取旧的分类问题,这将通过深度学习来解决。将有数以千计的深度学习应用。” Hinton希望使用学习算法来读取各种X射线,CT扫描和MRI数据,这正是他认为的近期前景。  将来,“学习算法会做出病理诊断”,可能是读取巴氏涂片、听心音,或预测精神病患者的复发。 AI可以帮助医生、护士,减少他们的工作量。人类往往无法长时间处理大量的扫描影像和医疗数据,这导致有时候病变会被看漏,或者过了很久之后才被发现,AI正好可以解决这个问题,极有希望在不久的将来,在医疗领域掀起又一次技术革命。 肺炎:斯坦福大学的算法诊断肺炎好于医生 去年9月,美国国家卫生研究院曾发布一组数据,这给斯坦福大学教授吴恩达领导机器学习小组带来了启发。该组数据包含112,120个胸部X射线图像,标有14种不同的可能的诊断,以及一些初步的算法。研究人员要求四名斯坦福放射科医师对420张图像进行注释,以查找可能的肺炎迹象。 在一个星期内,斯坦福大学研究人员开发了一种名为CheXnet的算法,它能够比以前的算法更准确地发现原始数据集中的14种病理学中的10种。在经过大约一个月的训练之后,研究人员通过康奈尔大学图书馆发表的一篇论文中报告说,CheXnet比四位斯坦福放射科医师更能准确诊断肺炎。 在420张X光片上进行测试的ChexNet在灵敏度(正确识别阳性)和特异性(正确识别阴性)方面优于四名放射科医师。个人放射科医师用橙色X表示,他们的平均表现用绿色X表示,ChexNet用蓝色曲线表示。 斯坦福大学还创建了胸部X射线的热图,颜色代表最可能代表肺炎的图像区域,研究人员认为CheXnet可以极大地帮助人类放射科医生的工具。 AI比医生的标准方法更准确地预测心脏病发作和中风 目前而言,评估患者风险的标准方法依赖于美国心脏协会和美国心脏病学会制定的指南。医生使用这些指导方针,重点关注诸如高血压、胆固醇、年龄、吸烟和糖尿病等完善的风险因素,为他们的病人制定咨询和治疗方案。 英国诺丁汉大学的研究人员创建了一个AI系统,可以扫描病人的常规医疗数据,并预测哪些人在10年内会发生心脏病或中风。与标准预测方法相比,AI系统正确预测了355名患者的命运。 为了使系统做得更好,研究人员Stephen Weng及其同事为英国378256名病人测试了几种机器学习工具。这些记录追踪了2005年至2015年的患者及其健康状况,并包含了人口统计,医疗状况,处方药,医院访问,实验室结果等信息。 研究人员将75%的病历记录下来,并将其输入到机器学习模型中,以找出在10年内发生心脏病或中风的患者的显着特征。然后Weng的小组测试了另外25%的记录中的模型,看他们如何准确地预测心脏病发作和中风。他们还测试了该部分记录的标准指南。 如果使用1.0分表示100%的准确性,那么标准指导得分0.728,机器学习模型的范围从0.745到0.764,最好的分数来自一种称为神经网络的机器学习模型。 虽然机器评分听起来可能不是一个响亮的胜利,但当翻译成人类术语时,其意义就变得清晰了:神经网络模型预测,在7404例实际病例中,有4998例患者心脏病发作或中风,这超过标准355例方法。有了这些预测,医生可以采取预防措施,例如开药降低胆固醇。 自闭症:AI扫描婴儿脑部以预测自闭症 北卡罗来纳大学教堂山分校的一个研究小组发现了6个月大儿童大脑的变化与自闭症的关系,而深度学习算法能够使用数据,预测在24个月时自闭症高危儿童是否会被诊断为病症。 该算法正确地预测了高危儿童的最终诊断,准确率为81%,灵敏度为88%。与行为问卷相比算法的表现不错,因为问卷产生早期的自闭症诊断准确率只有50%。 这个研究小组的项目是由美国国家卫生研究院资助,项目招募了106名患有自闭症家族史的婴儿和42名无自闭症家族史的婴儿,并在孩子们6、12、24个月时扫描他们的大脑。算法仅使用三个变量 —— 脑表面积、脑容量和性别(男孩比女孩更可能有自闭症),算法确定了十个自闭症孩子中的八个。 研究人员发现,在6个月和12个月之间,婴儿的整体脑部发育没有任何变化,但后来被诊断为自闭症的高危儿童的脑表面积显着增加。表面积的增加与12至24个月之间发生的脑容量增长有关。换言之,在自闭症中,发育中的大脑首先在表面积上扩展了12个月,然后在整个体积中增加了24个月。 这个团队还在24个月的时候对孩子进行了行为评估,当时他们已经够大了,开始表现出自闭症的标志性行为,比如缺乏社会兴趣,语言延迟和重复的身体动作。研究人员指出,大脑过度生长越多,孩子的自闭症症状就越严重。 皮肉切割手术精准度,机器人击败了外科医生 在最近的一系列实验中,智能自主机器人STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。 STAR通过视觉追踪其预定的切割路径,切割工具并不断调整其计划以适应自身移动,最终完成工作。 对于这种视觉追踪,机器人依赖于研究人员事先在组织上放置的微小标记,这些标记显示在近红外摄像机上。研究人员因此将STAR称为半自主机器人。 机器人和外科医生都被要求切割直线5厘米的线。由于外科医生训练在已知标志之间切割组织,而不是切断绝对距离,因此在皮肤上绘制参考线。一些外科医生在开放式手术设置下进行了切割,而另一些外科医生进行了腹腔镜设置,这是日益普遍的手术操作,其中工具通过一个小孔插入。 机器人和人类都是根据它们偏离理想长度的理想切割线以及包围切口多少焦炭(受损的肉)来判断的。结果:STAR的切割长度接近5厘米,与理想的切割线偏离较少,并且导致焦点较少。 深度学习能帮助临床医生预测阿尔茨海默病(老年痴呆)吗? 阿尔茨海默病没有临床试验,因此医生通过评估患者的认知能力下降来诊断。但对于轻度认知功能障碍(MCI)的诊断特别困难,即症状不明显的早期痴呆阶段。而且更难预测哪些MCI患者会发展为阿尔茨海默病。 目前,哈佛大学领导的研究小组率先尝试将fMRI扫描和深度学习结合到一个能预测MCI患者发展为阿尔茨海默病的概览的项目中。静息时对患者进行fMRI扫描,与任何fMRI扫描一样,它们揭示了大脑中电信号的闪烁以及这些区域如何相互关联。 这种关系的术语是功能连接性,并且随着患者发展MCI而改变。这是因为信号依赖氧气流向神经元,但是阿尔茨海默病患者中tau蛋白的积累会扼杀这些神经元,导致脑部区域萎缩。 该小组想要看看他们是否可以使用功能连接的这些变化来预测阿尔茨海默病。他们从93名MCI患者和101名由阿尔茨海默病神经成像倡议提供的正常患者的数据开始。研究人员根据参与者大脑90个区域的130个fMRI测量结果的时间序列,可以确定信号在一段时间内闪烁的位置。...
ChatGPT:金融行业大模型BloombergGPT
AI金融助手

ChatGPT:金融行业大模型BloombergGPT

一、简介 金融科技(FinTech)是一个庞大且不断增长的领域,NLP技术在其中扮演着越来越重要的角色。金融NLP任务包括情感分析、命名实体识别、新闻分类以及问答。虽然这些任务与一般NLP基准中的任务相似,但金融领域的复杂性和术语保证了一个特定领域的系统是有价值的。生成式LLM通常是有吸引力的,因为它能够进行少样本学习、文本生成和会话系统等。虽然有针对金融领域调优的掩码语言模型,但还没有针对该领域的任务进行调优或评估的LLM。 BloombergGPT 是彭博社在2023年3月发布的一个 500 亿参数的大型语言模型,专门为金融领域从头构建。它是一个大规模生成人工智能模型,专门针对金融数据进行训练,以支持金融行业内多种自然语言处理任务。彭博社通过构建这个模型,将帮助公司改进现有的金融 NLP 任务,如情感分析、命名实体识别、新闻分类和问答等。 二、特点 BloombergGPT采用了混合方法,结合了通用 LLM 和特定领域 LLM 的优点。通用模型能够在多种任务中执行良好,并在训练期间避免了专业化的需求。然而,现有的特定领域模型的结果表明,它们无法被通用模型所取代。BloombergGPT支持一组庞大且多样化的任务,通用模型能够很好地为我们服务,但绝大多数应用都在金融领域内,由特定模型更好地服务。因此,构建了一个模型,在金融基准上取得了同类中最好的结果,同时也在通用 LLM 基准上保持有竞争力的表现。 Bloomberg 的 ML 产品和研究小组与公司的 AI 工程团队合作,利用公司现有的数据创建、收集和整理资源,构建了一个大型特定领域数据集。作为一家金融数据公司,Bloomberg 的数据分析师已经收集和整理了超过 40 年的金融语言文档,拥有广泛的金融数据档案,涵盖了多种主题,并对数据来源和使用权进行了仔细跟踪。该团队从这个庞大的金融数据档案中提取出了一个包含 3630 亿个令牌的英文金融文档的综合数据集。这些数据与一个 3450 亿令牌的公共数据集结合在一起,形成了一个包含超过 7000 亿个令牌的大型训练语料库。使用这个训练语料库的一部分,该团队训练了一个 500 亿参数的解码器仅因果语言模型。最终得到的模型在现有的金融特定 NLP 基准测试、一套 Bloomberg 内部基准测试和流行基准测试中广泛类别的通用 NLP 任务(例如 BIG-bench Hard、知识评估、阅读理解和语言任务)上进行了验证。结果表明,混合训练方法产生了的模型,在域内金融任务上大大超过现有模型,在三个测试的 AI 模型中表现最佳,得分为 62.51,OPT-66B 的得分为 53.01,GPT-NeoX...
GPT-4考90分全假!30年资深律师用ChatGPT打官司,6个虚假案例成笑柄
AI律师助手

GPT-4考90分全假!30年资深律师用ChatGPT打官司,6个虚假案例成笑柄

来源:新智元   本文为3505字,建议阅读7分钟 本文介绍了ChatGPT对司法工作的影响案例。 【导读】ChatGPT又有什么错呢?美国律师向法院提交的文件中,竟引用了6个根本不存在的案例,反倒惹祸上身被制裁。ChatGPT,真的不可信!在美国近来的一起诉讼案件中,一位律师帮原告打官司,引用了ChatGPT捏造的6个不存在的案例。法官当庭指出,律师的辩护状是一个彻头彻尾的谎言,简直离了大谱。然而,律师为自己辩护中,甚至提交了和ChatGPT聊天截图的证据。显然,ChatGPT称「这些案例都是真实存在的」。本为原告打的官司,自己竟惹祸上身,将受到制裁,这波操作瞬间在网上引起轩然大波。毕竟,GPT-4刚诞生时,OpenAI放出它在律师资格考试(UBE)的成绩,还拿到了90分。网友警告,千万不要用ChatGPT进行法律研究!!!还有人戏称,要怪就怪你的prompt不行。 律师承认使用ChatGPT 这起诉讼的起始和其他许多案件一样。一位名叫Roberto Mata的男子在飞往纽约肯尼迪国际机场的航班上,不幸被一辆餐车撞到膝盖,导致受伤。由此,他便要起诉这架航班的「哥伦比亚航空公司」(Avianca)。Mata聘请了Levidow,Levidow & Oberman律所的一位律师来替自己打这个官司。接手案子后,律师Steven A. Schwartz向法院提交了一份10页的辩护状。其中,引用了6个相关的法院判决: Varghese V. 中国南方航空公司 Shaboon V. 埃及航空公司 Petersen V. 伊朗航空公司 Martinez  达美航空公司 Estate of Durden V. 荷兰皇家航空公司 Miller V. 美国联合航空公司 原文件: https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf 然而,让所有人震惊的是,从案件本身,到司法判决,再到内部引文,全是假的!为什么假?因为是ChatGPT生成的。这不,麻烦就来了。目前,对方律师考虑举行听证会,对原告律师进行制裁。Schwartz律师,可以说已经非常资深,在纽约从事法律工作已有30年。从他的话中得知,自己吃了大亏,竟是从来没用过ChatGPT,由此没有意识到它生成的内容是假的。说来,还是太离谱。原告律师Steven A. Schwartz在一份宣誓书中承认,他确实用了ChatGPT进行相关研究。为了验证这些案件的真实性,他做了唯一一件合理的事:让ChatGPT验证这些案件的真实性。他告诉法官,「自己无意欺骗法庭或航空公司」。当他询问ChatGPT这些案件的来源时,ChatGPT先是为之前的表述不清道歉,但还是坚称这些案件都是真实的,可以在Westlaw和LexisNexis上找到。而对方律师也同样坚持,来自Levidow & Oberman律师事务所的原告律师是多么荒唐可笑,由此才引发了法庭对这个细节的重视。在其中一个案例中,有个叫Varghese的人起诉中国南方航空有限公司。然而这件事压根不存在。ChatGPT好像引用了另一个案件——Zicherman起诉大韩航空有限公司。而ChatGPT把日期、案件细节什么的都搞错了。Schwartz此时才悔恨地表示,他没有意识到ChatGPT可能提供假案件,现在他非常后悔用生成式AI来进行法律研究。法官表示,这种情况前所未见,并将于6月8日举行听证会,讨论可能的制裁措施。这件事情再次体现了一个很重要的事实,那就是用完ChatGPT必须用其它来源进行双重,甚至三重查证。而AI模型在信息输入上出现重大事实错误已经不是第一次了,谷歌的Bard也遇到过这种问题。 90分?GPT-4成绩被夸大 还记得GPT-4刚刚发布那天,「小镇做题家」在各项考试指标上接近满分的水平。尤其,在美国统一律师资格考试(UBE)中,GPT-4可以拿到90%水平,而ChatGPT(GPT-3.5)也仅拿到10%的分数。但是,没过多久,来自MIT的研究人员Eric Martínez发了一篇论文,重新评估了GPT-4在Bar考试中的表现。论文直言,GPT-4的律师考试成绩被夸大了。 论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311作者在文中提出了4组发现,表明OpenAI对GPT-4在UBE的表现,尽管明显比GPT-3.5有令人印象深刻的飞跃,但似乎过于夸大。特别是,如果被当作代表「百分位数下限范围」的保守估计。更不用说,意在反映一位执业律师的实际能力了。首先,GPT-4的律师考试成绩,是与2月份伊利诺伊州律师考试的应试者相比较的。值得注意的是,这些考生都是复读生,不难理解,他们的分数可能会更差。其次,最近一次七月份考试的数据表明,GPT-4的UBE成绩为68%。第三,通过检查官方NCBE数据,并使用若干保守的统计假设,估计GPT-4在所有首次考试中实现63%。最后,当只考虑那些通过考试的人(即已获得许可或待许可的律师)时,预计GPT-4的表现将下降到48%。网友称,更准确来说,GPT-4应该只有63分,或者68分。文中,作者还提供了深刻的见解,探讨了将法律任务外包给AI模型的可取性和可行性。甚至,人工智能开发人员实施严格和透明的能力评估,以帮助确保安全和可靠的人工智能的重要性。要是,原告的那位律师看过这项研究后,说不定就不会吃大亏了。 ChatGPT胡说八道 归根结底,ChatGPT能够编造出6个不在的案例,还是因为它固有的「幻觉」问题。直白来讲,就是张口胡说八道的天性所致。就连马斯克都想拯救这个致命的问题,官宣推出了名为TruthGPT的AI平台。马斯克曾表示,TruthGPT将是一个「最大的求真人工智能」,它将试图理解宇宙的本质。然而,别管什么GPT,幻觉很难搞定。前段时间,OpenAI联合创始人兼研究员John Schulman在演讲「RL and...
心理测量与语言学数据集PhDGPT:大模型的情感与认知分析
AI情感助手

心理测量与语言学数据集PhDGPT:大模型的情感与认知分析

随着人工智能技术的发展,机器心理学成为一个新兴领域,它研究大模型(LLMs)如何通过自然语言处理再现和理解人类的心理过程。机器心理学不仅探讨这些模型的认知能力,还分析其在处理情感和心理健康问题上的表现。近年来,LLMs,如OpenAI的GPT-4和GPT-4o,因其在生成和理解人类语言上的卓越表现,引起了广泛关注和研究。 大模型能够通过大量文本数据的训练,模拟人类的语言和思维方式。然而它们在情感理解和心理测量方面的能力仍存在局限。为了更好地了解这些模型在心理学领域的应用潜力,研究人员开始探索LLMs在模拟人类心理状态、处理情感信息以及提供心理健康支持方面的能力。 11 月 19 日arXiv发表的论文《PHDGPT: INTRODUCING A PSYCHOMETRIC AND LINGUISTIC DATASET ABOUT HOW LARGE LANGUAGE MODELS PERCEIVE GRADUATE STUDENTS AND PROFESSORS IN PSYCHOLOGY》介绍了PhDGPT数据集,这是一个新的提示框架和合成数据集,旨在研究LLMs如何感知和模拟心理学博士研究生和教授的心理状态。PhDGPT数据集包含了75.6万个数据点,通过模拟不同的学术事件、性别和职业层级,生成抑郁、焦虑和压力的心理测量分数及其解释文本。研究的主要目的是通过PhDGPT数据集,揭示LLMs在处理心理学领域中的情感和认知偏见,以及它们在再现人类心理复杂性方面的能力和局限性。 PhDGPT数据集由特伦托大学心理学与认知科学系的研究团队开发,成员包括Edoardo Sebastiano De Duro,他是心理学与认知科学系成员,对心理测量和语言模型有深入研究。Enrique Taietta是心理学与认知科学系成员,与Edoardo共同致力于研究大模型在心理学领域的应用。Riccardo Improta是心理学与认知科学系成员,参与多项心理学研究,特别是在心理测量和认知科学方面。Massimo Stella是心理学与认知科学系成员,是这项研究的通讯作者,专注于心理测量、认知科学和大模型的交叉研究。 这个团队共同推出了PhDGPT,一个全新的数据集和提示框架,用于研究大模型对心理学博士研究生和教授的感知。他们利用OpenAI的GPT-3.5,通过严格的提示工程技术,创建多样化的人物角色和学术场景,旨在通过网络心理计量学和心理语言学方法,分析LLMs生成的心理数据和人类数据的异同。 研究方法 PhDGPT是一个由75.6万个数据点组成的综合数据集,旨在捕捉大模型(LLMs)对心理学博士研究生和教授的心理状态感知。该数据集通过模拟15个学术事件(如考试、研究、发表等)、两种性别(男、女)和两种职业层级(博士生、教授),生成抑郁、焦虑和压力量表(DASS-42)的42个独特项目反应。每个情景重复300次,以确保数据的多样性和可靠性。数据集不仅包含数值心理测量分数,还包括每个分数的简短文本解释,从而提供了一个心理测量分数与文本描述相结合的双重视角。 图1:构建PhDGPT所采用的条件表示。 为了生成PhDGPT数据集,研究团队使用了提示工程技术,通过OpenAI的API调用GPT-3.5模型。他们设计了一个复杂的提示框架,让模型在不同角色和学术场景中进行角色扮演。提示内容包括具体的学术事件、性别和职业层级,例如“你是一名准备参加统计学综合考试的女性博士生”,从而引导模型生成与该情景相关的心理测量分数和解释文本。为了增强角色扮演效果,提示框架中采用了重复提示技术,避免模型产生幻觉,同时增加对所扮演角色的识别。 图2:用于女性、博士生、发布条件的提示示例。(a)正态,(b)负价,(c)中性条件。 数据收集过程通过对每个情景进行300次API调用,生成包含DASS-42量表分数和文本解释的数据。研究团队采用了探索性图分析(EGA)方法,对生成的心理测量数据进行深入分析,比较模型生成的心理计量网络与人类数据,并映射到抑郁、焦虑和压力的原始子量表上。通过计算纯度,评估模型在重现人类因子结构上的能力。 作为额外的聚类质量评估指标,研究团队采用了纯度。纯度表示根据预定义的地面实况正确分配的集群内数据点的比例。在他们的案例中,基本事实是指与我们的心理测量评估中的项目相关的原始类别(例如,抑郁、焦虑、压力)。为了计算纯度,我们可以根据原始子量表的心理结构来描述每个因素Fi(D表示抑郁,A表示焦虑,S表示压力)。例如: •F1:{D1={34,17,21,38,13,26,37,10,3,16,24,31},A1={∅},S1={≩}} •F2:{D2={5,42},A2={9},S2={33,12,8,22,29}} •F3:{D3={∅},A3={25、40、4、15、41、7、20、23、36、19、30、28、2},S3={≟}} •F4:{D4={∅},A4={≩],S4={39、32、35、14、18、27、6、11}} 在D、A和S上聚集将导致社区结构,{Ci}i={Di∪Ai \8746 Si}i,其纯度将估计为:...
未来医学是AI医生主动来看你,不是你去看医生
AI医师助手

未来医学是AI医生主动来看你,不是你去看医生

关注GPT-AI专题资讯平台 越来越多业界人士关注GPT-AI专题,我们正搭建GPT-AI专题微信公共平台(扫码订阅,不做微信推送),为专业人士提供最新、最权威GPT-AI信息和视频,已发布如下内容(点击链接观看): 访谈OpenAI创始人Brokman:GPT-AI 访谈Elon Musk:最先进AI还没诞生! 访谈E.Yudkowsky:AI终结人类文明 访谈S.Altman, OpenAI CEO:GPT4 GPT-AI平台 国际专业资讯 专业人士关注 阅读文摘我们正在快速迈进“人头马”医生时代,将人类智慧与人工智能最佳结合起来,打造AI医生。 人们习以为常看病方式是去大医院、找好大夫、求助权威专家;吃最好最贵的药……即使做最大努力、给出最好政策支持优质医疗资源下沉,人们依然笃信大医院、大专家……人之本性! 这其中还有不争的事实:大医院医生通常接受多年系统化严格的医学培训,积累了丰富知识、临床经验、精准判断力以及强调团队协作精神。 然而,随着AI时代的到来,即使最杰出的人类大脑也难以记住和解释现有人类疾病和大量健康信息。在医疗实践中,医生的诊疗决策主要依靠现有知识和疾病状况信息,难免误诊误治。GPT-AI和GAI快速发展,看病找医生的情形已经开始变化;未来将是AI医生主动来看你。 AI将成为我们每个人医疗保健体验的一部分。用不了多久,人们也像医生一样,包括候诊室和药房)重新定义看病流程和健康管理。 事实上,FDA已经批准500多项“临床决策AI辅助支持系统”,帮助医生在疾病诊疗和资料管理方面参与决策,利用AI-ML算法以及关联数据信息,帮助医生创造性思考和辅助最佳决策选择。 什么是“人头马医生”?Dr. Centaur 形象比喻人类智能与人工智能相互结合的最佳形式,既能发挥人类的聪明才智,又能利用AI的精准分析和预测减少或降低医疗失误或不良后果,这是刚性需求。 仅以美国为例,医院内医疗失误每年造成至少25万死亡,如果启用AI至少能挽救这些不幸逝去的生命。 还有大约70% 导致严重不良反应用药错误是由于处方药错误。可能就是一个简单拼写错误或暂时记忆失误可能导致患者服用错误的药品。 一项研究结果表明使用AI-ML算法能以93%准确率进行膀胱肿瘤诊疗和预后分析。具有深度学习能力的人工智能将及时开始识别人类尚未觉察到疾病或健康变化。 正如4P医学奠基者Leroy Hood教授在即将出版的《科学健康时代》书中预见为什么医学的未来是个性化、可预测的,并且是掌握在自己手中的健康。 今天的医疗服务氛围,绝大多数医生是“等待”疾病症状出现,而每一种疾病可能有十种处方药,却对部分患者几乎没有或根本没用。Leroy Hood教授认为必须超越这种被动、碰碰运气的医疗方法,去迎来真正的精准健康,一种称之为科学个性化医疗健康模式。 医生和每个人都可以利用AI决策系统,在症状出现前数年发现疾病可能性或趋势,彻底改变预防疾病的概念和实践,最终可预见的结果是糖尿病会得到逆转;癌症将被消除,阿茨海默症得到避免,自身免疫疾病得到有效控制,等等。 关闭 观看更多 更多 退出全屏 视频加载失败,请刷新页面再试 刷新 视频详情 关注我们,获取生物医学前沿最新资讯