GW-ICC新闻发布会丨AI心脏医生:精准医疗,守护全民心血管健康
AI医师助手

GW-ICC新闻发布会丨AI心脏医生:精准医疗,守护全民心血管健康

智能诊疗,助力基层,惠及亿万患者。 在这个充满创新与突破的时代,我国心血管疾病患者人数已超3亿,医疗资源分布不均的挑战依然非常严峻。基于解决这一个重大公共卫生挑战的使命,在国家的大力推动下,应泽医生 · 人工智能心脏医生应运而生。2024年11月9日,在第35届长城心脏病学大会(GW-ICC 2024)暨亚洲心脏大会(AHS 2024)上,“应泽医生—国际首个由专家团队主导研发的智能心脏医生”新闻发布会隆重举行。本次发布会荟聚了来自中国东北、西北、华北、西南、华东、南部地区的12位心血管领域专家出席会议。马长生教授(首都医科大学附属北京安贞医院)、李悦教授(哈尔滨医科大学附属第一医院)、杨毅宁教授(新疆维吾尔自治区人民医院)、马晓峰教授(青海省心脑血管病专科医院)、格桑罗布教授(西藏自治区人民医院)、田进文教授(解放军总医院海南医院)、李绍龙教授(昆明医科大学附属延安医院)、高连君教授(大连医科大学附属第一医院)、佟倩教授、张尉华教授 (吉林大学白求恩第一医院)、洪葵教授(南昌大学第二附属医院),以及会议主持尹德春教授(哈尔滨医科大学附属第一医院),共同见证中国心血管医疗领域的这一重要时刻。 人工智能(AI)心脏医生:引领未来医疗,精准管理心血管疾病面对人口老龄化带来的医疗挑战,生成式人工智能(Artificial Intelligence,AI)为心脏病管理带来了新希望。业界首个能自动完成心脏病诊断并制定个体化诊疗方案的智能模型——应泽智能心脏病医生智能模型应运而生。该模型由心血管疾病专家团队主导开发,集成了大量临床实践、权威指南、最新研究及大量真实病历数据,通过智能算法模拟专家诊疗思维,提供精准可靠的诊疗建议。V1.0版本覆盖心内科常见疾病,包括高血压、冠心病、心衰、房颤、心律失常、糖尿病等疾病全过程诊疗与管理。包括诊断、治疗方案制定到生活方式建议等。旨在以智能技术模拟专家诊疗方式,提升医疗服务效率,增加均质化医疗覆盖能力,提升心血管疾病治疗愈后效果开启未来智能诊疗新方向。马长生教授:知识驱动,人工智能助力心血管诊疗马长生教授首先提出:“人工智能参与临床决策的价值最高,但尚不成熟。”尽管像GPT这类的通用大模型和Google的Med-PaLM等医疗大模型在处理医疗知识问答方面表现出色,但在医疗领域的实际病案的诊断过程中仍面临诸多挑战,尤其是在准确度、全面性和灵活性上方面和人类资深医生相比还有较大差距,当前还无法替代医生进行诊断和治疗方案制定。人工智能在医学影像判断、医疗数据理解方面已经有了突破性进展,并已经应用于实际的临床诊疗过程中,但在病情智能诊疗方面仍需持续探索和努力。应泽医生V1.0版本采用了知识驱动医生逻辑推理性思维模拟的方式,能够模拟人类医生的真实诊疗思维过程。应泽医生通过智能算法综合分析化验报告、彩超、CT报告、动态心电报告等多维度数据,结合患者的主诉及症状判断,能够给出患者从疾病诊断到治疗方案制定,再到生活方式干预的全面精准建议,提供全流程的管理方案。生成详细的药物处方和介入/手术建议。智能模型在多线索推理能力上有其独特的优势,能够兼顾疾病的个性化特征,特别是含有共患疾病情况下的诊断过程,在用药选择、治疗方案平衡等方面,可以做到准确、高效并兼顾人类医生的灵活性。经过初步评估,应泽医生V1.0版本的诊断建议与心血管科专家的意见一致率达到90%,与资深主治医生的一致率更是高达99%。未来,团队计划通过一系列随机对照试验(RCT)进一步验证其有效性和安全性。应泽医生将与互联网医院就诊模式,推动远程智能医疗的发展。通过互联网平台,患者可以在家中获得持续的、高效率、高质量的医疗服务,减少医院就诊的频率。长远来看,智能医疗或将改变传统就医模式,实现大部分常见疾病的远程智能诊断与治疗,推动医疗资源的合理分配与利用。团队有信心在未来5到10年内,通过应泽医生实现高效的心血管疾病防控,使80%的门急诊患者无需前往医院就诊,90%的患者能够居家康复。 媒体提问答疑Q1:作为医疗领域专家,您如何看待GPT等大语言模型在临床诊疗中的应用前景与局限性?马长生教授: 大语言模型如GPT在处理知识型任务时表现出色,例如在职业医师资格考试中能够超过大多数普通医生。然而,这些模型在实际临床诊疗中的应用仍面临诸多挑战。大模型虽然能够掌握大量的基础知识,但在复杂的临床决策中,它们由于缺乏医生的专业判断和临床经验,表现不尽人意(甚至会给出错误的诊疗意见),因此目前还无法替代医生的角色。 未来的AI模型将朝着专业化、精细化的方向发展,像应泽医生就是一个专注于心血管疾病领域的专科垂类模型,该模型通过知识驱动模型推理的方式,集成了大量医生的临床经验和诊疗逻辑思维,实现了更高效、更精准的临床决策支持。未来我们首先要解决的就是血管常见病的诊断治疗,做到完全符合人类医生的诊疗逻辑。这对于中国这样人口基数大的国家,无疑会是一个巨大的改革。Q2:智能心脏医生,如何保障患者数据的隐私和安全?在数据共享和存储方面做了哪些措施?马长生教授: 首先,所有使用智能心脏医生的用户都需要签署知情同意书,确保他们了解数据的使用目的和安全保障措施。其次,服务提供方需对用户的隐私和安全负全责。目前应泽医生V1.0版本主要用于为医生提供参考,如果患者在医生指导下使用该系统,仅限于提供咨询服务,也就是说,尽管应泽医生有能力生成详细的诊断建议和治疗方案,最终的医疗决策仍需由医生审核和确认,医生对患者的治疗建议和处方负有最终责任。在数据监管方面,应泽智能心脏医生在应用的所有数据管理都遵循国家的相关法律法规来执行。 Q3:AI辅助诊疗如果直接应用在临床诊疗中,会有哪些潜在风险?如何最大程度减少这些风险?李悦教授:根据近期的中国卫生健康年鉴,心血管疾病已成为中国首位死因,且死亡率持续上升。怎样控制这一局面,AI医生的出现就是一个很好的转折。真正的AI医生——“应泽医生”今天正式亮相,标志着AI在临床诊疗中的应用进入了一个新的阶段。AI医生具有自我学习的特性,通过临床实践和试验的不断检验与提升,其精准度将不断提高。应泽医生V1.0版本已经展示了良好的效果,未来2.0版、3.0版将进一步提升精准度。在此,我也向研发团队表示衷心感谢,他们的突破性工作为AI医生的发展奠定了坚实基础。希望医疗界能够大胆迎接和拥抱这一新技术,共同推动心血管疾病的防控和治疗。 Q4:相比传统诊疗模式,AI在医疗决策支持方面具有哪些独特优势?佟倩教授: AI医生拥有强大的记忆能力和计算能力,在逻辑推理和无限知识的记忆方面能够表现出独特优势,但其缺乏分辨能力,需要人类先赋予正确的学习内容和思维模式,确保其学习到准确的知识并形成合理的判断逻辑。成为一名优秀医生需要不断学习新的知识和技术,并进行复杂的逻辑判断,而AI的最大优势在于逻辑推理和知识记忆,通过正确的训练和必要的规则约束,AI医生将更好地辅助医生,确保诊疗结果的准确性。 Q5:马主任在开幕式中提到了后续AI医生的大量的RCT试验验证,有具体的计划吗?杨毅宁教授:人工智能在算力和逻辑推理方面具有显著优势,尤其在个体化疾病管理和健康管理中展现出新的业态和模式。更重要的是,借助人工智能的优势,我们能够更便捷、低成本地开展大规模RCT,提高研究结论的普适性。昨天我们的“心血管随机对照试验协作组(CRCT Group)”也正式成立,研究团队将充分利用AI的优势,推进针对高血压、房颤、心衰、冠心病和认知障碍等领域的人工智能产品相关RCT研究,包括乡村医生对高危高血压患者的管理等研究。这些项目不仅将验证应泽医生在个体患者管理中的有效性,还将大大助力我国心血管领域的临床研究,提出中国自己的RCT方案和声音。 洪葵教授: RCT是临床研究中的金标准,旨在通过多中心、多团队的合作和大样本人群验证,确保研究的科学性、真实性和可行性。在设计过程中,我们的团队设定了多个临床终点指标,目的是在国家多中心、多团队的共同努力下,最大限度地降低干预措施可能带来的潜在风险,减少试验失败的可能性。这个过程需要逐步进行,确保数据的科学性、真实性和可重复性,可靠验证AI医生的安全性与有效性。 Q6:AI医生的应用,对提升基层医疗服务能力有何具体帮助?格桑罗布教授: 今年诺贝尔奖获得者在结构蛋白质领域的创新,展示了AI的巨大潜力。马长生教授及其团队在心血管领域深耕20多年,积累了丰富的临床经验和严谨的科研能力。针对大模型在临床应用中面临的挑战,团队通过科学分析和深入剖析,结合医生的思维模式和知识体系,开发了应泽医生。 这一AI系统在知识储备和逻辑推理方面具有明显优势,能够辅助医生提高诊疗效率和准确性。这不仅有助于优质医疗资源的下沉,还能降低医疗成本,提高服务质量。应泽医生的成功上线标志着中国在心血管AI领域的重大突破,有望成为全国乃至全球的典范。 李绍龙教授: 基层医生的诊疗能力提升是健康中国计划的重要环节。AI医生不仅可以帮助基层医生完善诊疗思路,还能成为基层医生的有力指导工具。人工智能医生集成了丰富的病例经验数据和知识库,通过在线学习和培训帮助基层医务人员提升业务能力。对于少见和复杂的疾病,AI医生能够提供更全面的辅助分析,提升基层医疗机构的诊疗水平。此外,AI医生可以将经验丰富专家的经验“数字化”,使基层患者在本地就能享受高质量的医疗服务。在危重和复杂患者处理上,AI医生能够辅助基层医生做出转诊决策,确保患者得到及时有效的治疗。在慢病管理方面,AI医生可以实现高血压、糖尿病等慢性疾病的远程监测和用药调整,从而降低管理成本,提高患者生活质量。这些功能的实现将显著提升基层医疗的服务质量和效率,为健康中国计划贡献力量。 Q7:AI医生与人类医生如何协作?田进文教授: 人类的智力与机器的智力不同,人类具有创造力、情感和设计能力,而机器则拥有强大的运算和存储能力,AI医生在信息检索、方案建议和日常文本生成方面效率极高。虽然最终的决策仍需人类医生的指导,但AI医生在基层医疗中的应用可以显著提升医生的经验和知识结构,提供跨代的帮助。AI医生的发展将打破技术壁垒,丰富医生的知识体系,未来每个医生都可能拥有强大的辅助工具,成为“武林高手”手中的宝剑利器。 Q8:关于AI医生替代80%门诊的观点,指导基层医生开展常见病和疑难重症的治疗,从医疗资源配置和医疗质量保障的角度,您如何评估其可行性?高连君教授: 关于未来AI医生能否解决80%的医生工作的观点,我认为需要从以下角度分析:医生日常工作中约80%是处理常见病和慢性病,这类患者通常希望到大型医疗中心找有经验的专家就诊,但这些中心的医疗资源有限,每天能接诊的病人数量也很有限。目前,诊疗的均质化问题依然存在,基层医生的诊疗水平与专家有一定差距,尽管通过培训和巡讲等方式在努力提升,但效果有限且需要时间。AI医生在诊断标准、治疗决策和慢病管理方面具有高度标准化和集成化的优势,能够全天候提供持续、规范的医疗建议。这不仅能大大缓解基层医生的负担,提升诊疗质量,同时释放大医院专家的资源,让他们更专注于疑难复杂病例的诊疗。 Q9:每个人都是自己健康的第一责任人,在心血管病患者的教育中,AI医生有什么优势?马晓峰教授:AI医生是患者和医生之间的桥梁,不仅涵盖医院内的手术和诊疗,还包括院前和院后的管理。患者的管理涉及健康评估和预防,特别是心血管患者需要个性化的、精准化的预防和健康评估。AI医生能够提供全面、专业的健康指导,随时随地响应患者的需求,进行精准的健康评估和个性化建议。对于非心血管专业的医生,AI医生提供了更全面的健康教育和支持,填补了专业医生的不足。在青海等偏远地区,基层医生缺乏专业的心血管知识,AI医生可以作为基层医生的帮手和老师,提供同质化的健康指导,提升基层医疗服务水平。AI医生的引入将改变心血管健康教育的普及模式,降低心血管疾病的死亡率,对患者的整体健康管理具有重要意义。Q10:今年长城会发布了应泽医生与应泽互联网医院,请马主任谈一谈应泽医生与应泽互联网医院协同促进的关系。马长生教授:在今天的长城会上,我们重点展示了人工智能心脏医生“Doctor YZ”(应泽医生),希望其成为全国乃至全世界知名的人工智能心脏医生。今天的发布会不仅代表了研发团队的努力,也凝聚了来自各个地区的专家们的智慧。我们坚信,尽管目前还在起步阶段,但应泽医生有着巨大的成功潜力,就像比亚迪在电动汽车领域的崛起一样,从无人知晓到全球知名。应泽医生的目标是通过互联网医院、基层医院,为广大心血管患者提供可靠、持续和广泛的医疗服务。我们将在应泽互联网医院开设成千上万的诊所,帮助县域级医院的主任和主治医师管理患者。通过应泽医生,80%的患者无需花费高昂成本,坐在家里,就可得到专家级别的疾病管理,只有少数复杂病例需要人类医生通过传统医疗模式,在院内进一步干预。这不仅降低了医疗成本,还提高了均质化医疗服务的效率和覆盖面。未来,通过AI技术的广泛应用,患者的就医成本将大幅下降,医生的劳务价值也将得到合理体现,推动医疗服务的可持续发展。今天我们特别邀请了来自各地的院长和专家,他们代表最需要这些技术的区域,共同推动这一创新项目。正如总书记所说,“惟改革者进,惟创新者强,惟改革创新者胜”。应泽医生的推出,将提升基层医疗水平,为中国医疗卫生事业的创新发展贡献力量。
BloombergGPT在金融领域有多厉害? | 高金智库
AI金融助手

BloombergGPT在金融领域有多厉害? | 高金智库

随着人工智能技术的快速发展,大型语言模型(Large Language Model,下文简称LLM)已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力,但市场上暂未有专攻金融领域的LLM。 在此背景下,彭博社(Bloomberg)和约翰霍普金斯大学的Shijie Wu等在BloombergGPT: A Large Language Model for Finance一文中重磅发布了为金融界打造的LLM——BloombergGPT。 报告说明,对BloombergGPT的评估显示,其在金融任务上的表现显著优于现有模型,同时不会牺牲通用LLM的基准性能,因此BloombergGPT在金融领域具有不可替代性。 因评估方式以及模型本身的局限,BloombergGPT是否会对金融业带来颠覆性的变革还有待商榷,但不可否认的是,随着技术的进步,BloombergGPT在不同金融业务场景下都将具有广泛的应用和可观的潜力 。 *本文作者:毛诗倩 上海交通大学中国金融研究院研究助理 潘   薇 上海交通大学中国金融研究院CAFR-信也科技联合研究实验室研究助理 01 什么是BloombergGPT? 自然语言处理(Nature Language Processing,下文简称NLP)是计算机科学和人工智能领域的重要方向,研究如何让计算机读懂人类语言,目前NLP在金融领域应用越来越广泛而复杂。随着人工智能技术的快速发展,LLM已经成为NLP的佼佼者,是当下AI和NLP研究与产业中最重要的方向之一。 LLM是指包含数千亿(或更多)参数的可以通过处理大量自然语言数据的深度学习模型。目前火爆的ChatGPT模型就是一种LLM,证明了训练非常大的LLM的强大优势。但目前的LLM大多是通用性的,而因金融行业的复杂性以及大量的金融术语,市场上需要一个专攻金融专业的模型。 彭博社是全球商业、金融信息和新闻资讯提供商,通过其强大的集信息、人物及观点为一体的动态网络为全球决策者带来关键优势。彭博社精于以创新的技术来快速、精准地传递数据、新闻和分析,这也是彭博终端的核心优势所在。 今年3月30日,彭博社最新发布的报告显示,其构建了迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM——BloombergGPT,以支持金融行业内的各类任务。 彭博社依托其四十多年来积累的大量金融数据源,创建了一个包含3,630亿词例(token)的金融数据集FinPile,又与公共数据集叠加成为了包含超7,000亿词例的大型训练语料库。利用庞大的数据集,并基于通用和金融业务的场景进行混合模型训练,训练了包含500亿个参数的大规模生成式人工智能模型BloombergGPT,以全方位支持并改善金融领域的NLP任务。 BloombergGPT的推出意味着这项新技术在金融领域的发展和应用已经迈出了第一步。 02 对BloombergGPT的模型评估 报告中将BloombergGPT与其他两个参数量级等相匹配的模型GPT-NeoX,OPT66B和一个参数更大的模型BLOOM176B在金融领域和通用领域分别进行了比较评估:金融领域评估以验证对高质量的金融特定数据进行训练将在金融任务中产生更好的结果;通用领域评估以与市场上其他模型在通用任务上做对比。 结果表明,BloombergGPT模型在金融任务上的表现远超类似规模的开放模型,在通用任务上优于其他相同参数量级的模型,并在某些任务上甚至超过了参数量更大的模型,证明了其专注于金融领域的不可替代性。(一) 金融领域评估 金融领域评估中分成了两组:一组是外部金融任务(Public Financial Tasks),收集了包括一系列NLP任务的公开金融数据集;另一组是Bloomberg金融任务(Bloomberg Financial Tasks),收集了Bloomberg内部高质量评估集中提取的任务,以测试情绪三分类和命名实体识别(Named Entity Recognition,简称NER)。 1、 外部金融任务(Public Financial Tasks) 外部金融任务以衡量BloombergGPT在金融领域的有效性,主要测试为以下五项:...
GPT-4变更强了!新版ChatGPT律师考试赢9成考生
AI律师助手

GPT-4变更强了!新版ChatGPT律师考试赢9成考生

OpenAI推出了其人工智能工具的最新版本,该工具催生了炙手可热的ChatGPT和Dall-E服务,并在被称为生成式人工智能的领域掀起了科技公司的战火。 新版本称为GPT-4,这家初创公司称该版本提升了准确性、创意性和协作性。微软公司(Microsoft Corp.)为OpenAI投资了逾100亿美元,该公司称这个新版本的人工智能工具已经在为其必应搜索引擎提供支持。 GPT-4全名“生成式预训练转换器4”(generative pretrained transformer 4),它将面向OpenAI的ChatGPT Plus付费用户,开发人员注册后可使用它开发应用程序。3月14日,OpenAI表示:“基于我们的内部评估,该工具提供有据可循的回答的几率比GPT-3.5高40%。”新版本还可处理文本和图像查询,用户可提交问题及相关图片,请GPT-4给予描述或解答。 OpenAI在2020年发布了GPT-3,之后结合GPT-3.5,创建了图像生成工具Dall-E及聊天机器人ChatGPT。这两个产品抓住了公众的想象力,也激发其他科技公司在人工智能领域的进取心。从那时起,人们关于下个版本能否更智能、能否承担更多任务的议论越来越多。 OpenAI称摩根士丹利(Morgan Stanley)正在使用GPT-4来编排数据,电子支付公司Stripe Inc.也在测试它能否帮助打击欺诈。其他客户还有语言学习公司Duolingo Inc.、可汗学院及冰岛政府。 Be My Eyes是一家致力于为盲人或弱视群体开发工具的公司,该公司也在一项虚拟志愿者服务中使用了该软件,用户可将图像发送至人工智能驱动的平台,后者会回答问题和提供视觉辅助。 OpenAI总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)表示:“我们真的开始开发出功能强大的系统,这些系统能带来新的想法,帮你理解一些原本难以理解的事物。”他说新版本更擅长于在企业盈利报告中提取特定信息,或提供有关美国联邦税法的某个具体部分的回答,简言之,就是通过梳理“繁琐的商业法律术语”找到答案。 OpenAI表示,GPT-4在律师资格考试(Uniform Bar Examination, UBE)中可以击败90%的考生。在满分1600分的美国大学入学测验SAT拿到1300分,在高中的大学先修课程测验中,不论是生物、微积分、总体经济学、心理学、统计学和历史都拿到5分的满级分。 至于前一版本的ChatGPT并无法通过律师考试,在大部分高中的大学先修课程测验中,也无法拿到那么高分。 和GPT-3一样,GPT-4也没有谈论时事的能力,其训练数据基本都来自2021年9月以前。 早期版本的ChatGPT智能手机聊天界面 在2023年1月的采访中,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)曾试图降低人们的期望。 “关于GPT-4的谣言天花乱坠,”他说,“我不知道这一切是从何而来。人们在乞求失望,他们一定会失望。”该公司首席技术官米拉·穆拉蒂(Mira Murati)本月早些时候对《快公司》(Fast Company)表示,“炒作太多不是好事。” GPT-4是一种被称为大型语言模型的人工智能系统,它能分析互联网的海量文字,以确定如何生成模拟人类的文本。近几个月来,该技术激起了许多兴奋,也引发了不少争议。除了担心文本生成系统会被用于课业作弊外,它还可能固化各种偏见和错误信息。 OpenAI在2019年最初发布GPT-2时,出于对恶意使用的担忧,选择仅公开部分模型。研究人员指出,大型语言模型有时会偏离主题,或涉及不恰当或种族主义的言论。对于训练和运行人工智能模型所需的庞大计算能力伴随的碳排放,他们也深感担忧。 OpenAI称他们花了半年时间提升这款人工智能软件的安全性。例如,GPT-4的最终版本更擅长处理(例如)如何制造炸弹或去哪购买廉价香烟的问题,对于后一个问题,它现在会在提供可能的省钱方法的同时,发出吸烟有害健康的警告。 “GPT-4仍有许多已知的局限性,我们正在努力解决,比如社交偏见、虚幻信息和敌意输入,”该公司3月14日在一篇博客中写道。这里指的是提交旨在激发不利行为或破坏系统的信息或问题。“随着模型的普及,我们会鼓励和提升透明度,改善用户学习,推进更广泛的人工智能素养。我们还致力于增强用户参与塑造模型的途径。” 该公司拒绝提供有关GPT-4的具体技术信息,包括模型规模。公司总裁布罗克曼表示,OpenAI预计未来会有一些公司花费数十亿美元购买超级计算机来开发尖端模型,其中一些最先进的工具将带来风险。OpenAI希望对部分工作内容保密,以便为公司争取“喘息空间,以真正专注于安全,落实安全”。 这种做法在人工智能领域存在争议。一些公司和专家认为,通过提升开放性,将人工智能模型公之于众,可以提高安全性。OpenAI还透漏,虽然未公布模型训练的部分细节,但该公司在提供更多信息,说明它在根除偏见和让产品更负责任方面做了那些工作。 OpenAI政策研究员桑德希尼·阿加瓦尔(Sandhini Agarwal)表示:“实际上,我们对于安全训练阶段一直非常透明。” 这段时间,OpenAI和背后的微软以及这个新兴行业里的其他竞争对手们发布了大量关于人工智能的新东西。包括新的聊天机器人、人工智能加持的搜索引擎,以及将该技术纳入销售和办公人员使用的企业软件的新方法,等等。和OpenAI近期的其他版本一样,GPT-4的训练也是在微软的Azure云平台上进行的。 3月14日早些时候,谷歌(Google)支持的初创公司Anthropic(由OpenAI前高管创立)宣布向企业客户发布Claude聊天机器人。 与此同时,Alphabet Inc.旗下的谷歌表示将允许客户使用该公司的一些语言模型,微软则定于3月16日公布其关于如何为Office软件整合人工智能的计划。 新一批的通用人工智能模型也引发了关于版权和所有权问题的讨论,包括如果人工智能程序创建的内容与现有内容很相似时要怎么处理?以及这些系统是否有权使用其他人的艺术、文字和编程进行训练。OpenAI、微软及其竞争对手已经面临相关诉讼。
42位AI医生“入驻”清华医院,开启300余种疾病诊断
AI医师助手

42位AI医生“入驻”清华医院,开启300余种疾病诊断

医学前沿、行业新闻, 全面把握最新医圈动态,一篇搞定! 01 医保局统一整合规范现行放射检查项目 02 《柳叶刀》重磅:全球8.2 亿成年糖尿病患者,中国位列第二 03 42位AI医生“入驻” 清华医院,开启 300 余种疾病诊断 04 无锡一医院违规被重罚,执业许可被吊销 05 23省医保新变革:“家庭共济” 范围拓展近亲属 >> 医保局统一整合规范现行放射检查项目 2024年11月22日消息,国家医保局近日印发《放射检查类医疗服务价格项目立项指南(试行)》。该《指南》对现行放射检查项目统一整合规范,将其整合为26项,依成像技术分类。同时,在主项目下设“人工智能辅助诊断”扩展项,利用人工智能辅助诊断的,执行与主项目相同价格且不重复收费。此外,实体胶片从项目价格构成中剥离,由患者按需选购。国家医保局还表示,下一步将指导各省份关注大型检查设备采购价下降趋势,合理下调放射检查服务价格,促进检查结果互认,减轻群众就医负担。(中国青年报) 好医生点评 国家医保局印发放射检查类价格项目立项指南意义重大。整合为26项并分类,使项目更清晰规范。“人工智能辅助诊断”扩展项不重复收费,保障患者权益,避免额外负担。实体胶片按需选购,打破捆绑收费模式。且后续还将推动价格合理下调及检查结果互认,这一系列举措直击看病贵、检查繁琐等痛点,彰显医保局以民为本,积极优化医疗服务价格体系,助力医疗资源合理利用,值得点赞。 >> 《柳叶刀》重磅:全球8.2 亿成年糖尿病患者,中国位列第二 2024年11月23日《柳叶刀》新发布了糖尿病患病率和治疗趋势的研究报告,显示2022年统计患糖尿病的8.28亿成年患者中,超过四分之一(2.12亿)居住在印度,另有1.48亿居住在中国,其次是美国(4200万人)、巴基斯坦(3600万人)、印度尼西亚(2500万人)和巴西(2200万人)。中国已然稳坐“糖尿病大国”。糖尿病的高发与肥胖和不健康饮食密切相关,尤其在太平洋岛国、加勒比地区和中东地区,糖尿病发病率尤为突出。研究人员呼吁加强糖尿病普及检测和创新筛查方法,包括利用社区资源和延长医疗服务时间,以提高中低收入国家糖尿病诊断率和治疗覆盖率。 好医生点评 有数据显示,自1990年以来,全球糖尿病患者人数翻了四倍,从1.98亿增至8.28亿。糖尿病的患病率在男性和女性中都大幅增加,其中印度和中国是受该病影响严重的国家。低中收入国家的糖尿病患者往往更年轻,而且由于缺乏有效治疗,他们面临终身并发症风险,包括截肢、心脏病、肾病或失明和过早死亡。(澎湃新闻) >>42位AI医生“入驻”清华医院,开启 300 余种疾病诊断 11月23日,有消息称首家“AI医院”Agent Hospital正在进行内测,将于年底正式上线,明年上半年对公众开放。清华大学智能产业研究院执行院长刘洋教授提到:AI虚拟医院对真实医院的设施和流程进行模拟,目前构建的42位AI医生分布在儿科、耳鼻喉科等21个科室,覆盖了300余种疾病。 记者通过Agent Hospital内测版看到,42个AI医生在医院里坐诊,他们在阅读医学文献,与虚拟/真实的病人交互并做诊疗决策,不断从成功诊疗案例中总结经验、从失败案例中反思教训,在诊疗近万名虚拟病人后,做出诊疗方案……(人民日报健康网客户端) 好医生点评 海量患者是帮助AI医生进化的关键。刘洋介绍,他们同时构建了超过50万个来自不同国家地区、覆盖各个年龄段、患有不同疾病的AI患者,这些AI患者可以是人类患者在虚拟世界的数字化“分身”,也可以由人工智能大模型结合权威医学知识库和少量公开人类患者病例自动合成。在我们的设想中,随着AI医生的不断自我进化,未来将能够介入到真实的医疗应用场景中,辅助人类医生完成绝大多数工作,这也是智慧医疗领域最受关注的应用落地方向。(人民日报健康网客户端) >>无锡一医院违规被重罚,执业许可被吊销 近日,无锡一医院有限公司遭重罚。无锡市医疗保障局于2024年10月28日出具行政处罚决定书(锡医保罚字【2024】第24010006号),因其在2022年1月1日至2024年9月22日存在虚假就医、伪造变造资料、虚构医药服务项目等违法事实,对其罚款58958121.95元。随后,10月29日的锡卫医罚【2024】0014号行政处罚决定书显示,该医院因重复使用MRI、CT等影像骗取医保基金且伪造医学文书,被无锡市卫生健康委吊销医疗机构执业许可证,无锡市卫健委已在官网发布注销改医院的公告。(财联社) 图源:无锡市人民政府官网 好医生点评 医疗行业绝非法外之地,任何妄图通过违规手段谋取私利的行为都必将受到严惩。它也给其他医疗机构敲响了警钟,必须坚守医疗道德与法规底线,合法合规经营,切实保障患者权益和医保基金安全,如此才能在行业中立足,否则终将自食恶果。这一事件警示着,医疗监管时刻保持高压态势,加大惩处力度,如此才能保障医疗行业的健康发展,让民众能安心就医。 >>23省医保新变革:“家庭共济” 范围拓展近亲属 2021年,国办印发文件,是将职工医保个人账户使用范围从职工本人,扩大到其参加基本医保的“配偶、父母、子女”。近日,国办再次印发文件,进一步将职工医保个人账户共济亲属的范围由“配偶、父母、子女”,扩大至其参加基本医保的“近亲属”。 截至目前,国内已有23个省份将职工医保个人账户共济范围由“配偶、父母、子女”扩大至“配偶、父母、子女、兄弟姐妹、祖父母、外祖父母、孙子女、外孙子女”。其中,辽宁、浙江、海南、四川、宁夏5省份为近一个月新增。31个省份及新疆生产建设兵团已实现职工医保个人账户省内跨统筹区共济。据悉,此前在(中国日报网) 好医生点评...
华泰研究 |  本周精选:大圆柱电池、金融GPT、转基因深度、AI大模型+金融、4月战术配置、PMI
AI金融助手

华泰研究 | 本周精选:大圆柱电池、金融GPT、转基因深度、AI大模型+金融、4月战术配置、PMI

华泰研究“本周精选”汇集本周最受读者欢迎的研究报告,点击下方标题可查阅全文。 01 电新:新能车前沿技术之五—大圆柱电池 02 计算机:从BloombergGPT看金融GPT机遇 03 农业 • 转基因百页深度:生物育种产业化元年的到来 04 电子:AI大模型+金融—掘金行业数据富矿 05 策略:4月战术配置—经济越向上,久期越下沉 06 宏观:PMI再超预期、内需回升行稳致远 01 电新:新能车前沿技术之五—大圆柱电池 -点击图片查阅全文- 20年9月,特斯拉正式发布4680大圆柱电池,从单体到系统层面对电池进行了全面升级,使其安全性、续航、快充等性能得到了显著提升。相关车企、电池企业自此争相布局大圆柱电池,以期抓住动力电池市场。同时在户用储能领域,国内相关电池企业已从22年开始布局适用储能市场的磷酸铁锂大圆柱电池。我们预计27年全球大圆柱电池装机量有望达429GWh,对应市场规模2144.8亿元。产业节奏上,我们预计今年大圆柱电池将从小批量生产转向量产放量,带动相关电池企业受益。同时大圆柱电池引入的创新技术和化学体系也有望为上游的设备厂、材料厂等带来新的发展机会。 申建国 S0570522020002 边文姣 S0570518110004 | BSJ399 2023-04-02 02 计算机:从BloombergGPT看金融GPT机遇 -点击图片查阅全文- 2023年3月30日,Bloomberg发布专为金融领域打造的大语言模型(Large Language Model,LLM)BloombergGPT,实现了LLM在金融垂直场景的加速落地。从测试结果来看,BloombergGPT在保证LLM通用性能的基础上,更加聚焦金融场景,有效实现了LLM与金融垂直领域知识的深度融合。BloombergGPT的成功,佐证了“开源模型+高质量垂直数据”LLM搭建思路的有效性,金融GPT率先在证券场景落地,同时建议关注后续GPT在银行领域的业务机会。 谢春生 S0570519080006 | BQZ938 2023-04-02 03 农业 • 转基因百页深度:生物育种产业化元年的到来 -点击图片查阅全文- 本篇报告从地缘优势和技术视角出发,梳理分析了转基因作物在全球应用现状的成因、国际巨头崛起的动力、乃至全球粮食贸易格局变迁的隐线,构建了以功能基因和专利布局来评估国内生物育种产业链公司的分析框架。我们认为,玉米和大豆在中国的生物育种产业化即将启动,为中国农业带来新机遇,建议积极布局种业。 熊承慧 S0570522120004 | BPK020 冯源 S0570522070001 2023-03-31 04 电子:AI大模型+金融—掘金行业数据富矿 -点击图片查阅全文- 金融行业数字化程度领先,拥有数据富矿,有望成为AI大模型率先落地的垂直领域之一。应用端,我们看到生成式和理解式大模型在银行、保险、资管、投研、投顾等多个细分领域正在落地或拥有潜在落地场景,帮助金融机构降本增效。 黄乐平 S0570521050001 | AUZ066...
大幅超越 ChatGPT:GPT-4震撼发布!能考上律师、能玩梗图……
AI律师助手

大幅超越 ChatGPT:GPT-4震撼发布!能考上律师、能玩梗图……

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI(在美国成立的人工智能研究公司,ChatGPT 的开发机构)自己。在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI下一步的发展会是什么,很多学者都提到了多模态,我们并没有等太久。今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 “GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人,”OpenAI 工程师在介绍视频里说道。似乎是想一口气终结这场游戏,OpenAI 既发布了论文(更像是技术报告)、 System Card,把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API(应用程序编程接口)。另外,微软营销主管在 GPT-4 发布后第一时间表示:“如果你在过去六周内的任何时候使用过新的 Bing 预览版,你就已经提前了解了 OpenAI 最新模型的强大功能。”是的,微软的新必应早就已经用上了GPT-4。 01 GPT-4:我 SAT 考 710,也能当律师GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。OpenAI 花了 6...
【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生
AI医师助手

【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生

  新智元报道   编辑:张乾  弗朗西斯  文强 【新智元导读】2017年4月,Hinton在接受《纽约客》采访时说:“5年内深度学习就能超过放射科医生,从现在起就停止培训放射科医生”。此言论一出,再一次引发全球关于AI正在取代医生的焦虑讨论。IEEE Spectrum在2018新年伊始推出专刊“AI vs Doctors”,统计了从2016年5月至今,AI在医疗领域的进展,并对比各大细分领域AI与人类医生能力差距,人工智能正在医生的主场获取成功,哪些医疗诊疗行业已被AI超越?机器人医生是人类的未来吗? 2017年4月,Hinton在接受《纽约客》采访时说:“作为放射科医生你就像卡通里的歪心狼一样,你已经冲出悬崖很远,但还没有往下看,实际上你的脚下空空如也。”商用的深度学习乳腺癌检测系统已经在开发中,Hinton说:“很显然,5年内深度学习就能超过放射科医生,或许会用10年,我在医院里说过,结果反响很糟糕。” 实际上,Hinton在医院里说的是,“应该从现在起就停止培训放射科医生”。 Hinton告诉《纽约客》记者:“放射科医生的角色从做感知(perceptual)的事情演变而来,这可能由一只训练有素的鸽子完成。”Hinton对自动化医学未来的预测建立在一个简单的原则基础之上:“在有大量数据的地方,采取旧的分类问题,这将通过深度学习来解决。将有数以千计的深度学习应用。” Hinton希望使用学习算法来读取各种X射线,CT扫描和MRI数据,这正是他认为的近期前景。  将来,“学习算法会做出病理诊断”,可能是读取巴氏涂片、听心音,或预测精神病患者的复发。 AI可以帮助医生、护士,减少他们的工作量。人类往往无法长时间处理大量的扫描影像和医疗数据,这导致有时候病变会被看漏,或者过了很久之后才被发现,AI正好可以解决这个问题,极有希望在不久的将来,在医疗领域掀起又一次技术革命。 肺炎:斯坦福大学的算法诊断肺炎好于医生 去年9月,美国国家卫生研究院曾发布一组数据,这给斯坦福大学教授吴恩达领导机器学习小组带来了启发。该组数据包含112,120个胸部X射线图像,标有14种不同的可能的诊断,以及一些初步的算法。研究人员要求四名斯坦福放射科医师对420张图像进行注释,以查找可能的肺炎迹象。 在一个星期内,斯坦福大学研究人员开发了一种名为CheXnet的算法,它能够比以前的算法更准确地发现原始数据集中的14种病理学中的10种。在经过大约一个月的训练之后,研究人员通过康奈尔大学图书馆发表的一篇论文中报告说,CheXnet比四位斯坦福放射科医师更能准确诊断肺炎。 在420张X光片上进行测试的ChexNet在灵敏度(正确识别阳性)和特异性(正确识别阴性)方面优于四名放射科医师。个人放射科医师用橙色X表示,他们的平均表现用绿色X表示,ChexNet用蓝色曲线表示。 斯坦福大学还创建了胸部X射线的热图,颜色代表最可能代表肺炎的图像区域,研究人员认为CheXnet可以极大地帮助人类放射科医生的工具。 AI比医生的标准方法更准确地预测心脏病发作和中风 目前而言,评估患者风险的标准方法依赖于美国心脏协会和美国心脏病学会制定的指南。医生使用这些指导方针,重点关注诸如高血压、胆固醇、年龄、吸烟和糖尿病等完善的风险因素,为他们的病人制定咨询和治疗方案。 英国诺丁汉大学的研究人员创建了一个AI系统,可以扫描病人的常规医疗数据,并预测哪些人在10年内会发生心脏病或中风。与标准预测方法相比,AI系统正确预测了355名患者的命运。 为了使系统做得更好,研究人员Stephen Weng及其同事为英国378256名病人测试了几种机器学习工具。这些记录追踪了2005年至2015年的患者及其健康状况,并包含了人口统计,医疗状况,处方药,医院访问,实验室结果等信息。 研究人员将75%的病历记录下来,并将其输入到机器学习模型中,以找出在10年内发生心脏病或中风的患者的显着特征。然后Weng的小组测试了另外25%的记录中的模型,看他们如何准确地预测心脏病发作和中风。他们还测试了该部分记录的标准指南。 如果使用1.0分表示100%的准确性,那么标准指导得分0.728,机器学习模型的范围从0.745到0.764,最好的分数来自一种称为神经网络的机器学习模型。 虽然机器评分听起来可能不是一个响亮的胜利,但当翻译成人类术语时,其意义就变得清晰了:神经网络模型预测,在7404例实际病例中,有4998例患者心脏病发作或中风,这超过标准355例方法。有了这些预测,医生可以采取预防措施,例如开药降低胆固醇。 自闭症:AI扫描婴儿脑部以预测自闭症 北卡罗来纳大学教堂山分校的一个研究小组发现了6个月大儿童大脑的变化与自闭症的关系,而深度学习算法能够使用数据,预测在24个月时自闭症高危儿童是否会被诊断为病症。 该算法正确地预测了高危儿童的最终诊断,准确率为81%,灵敏度为88%。与行为问卷相比算法的表现不错,因为问卷产生早期的自闭症诊断准确率只有50%。 这个研究小组的项目是由美国国家卫生研究院资助,项目招募了106名患有自闭症家族史的婴儿和42名无自闭症家族史的婴儿,并在孩子们6、12、24个月时扫描他们的大脑。算法仅使用三个变量 —— 脑表面积、脑容量和性别(男孩比女孩更可能有自闭症),算法确定了十个自闭症孩子中的八个。 研究人员发现,在6个月和12个月之间,婴儿的整体脑部发育没有任何变化,但后来被诊断为自闭症的高危儿童的脑表面积显着增加。表面积的增加与12至24个月之间发生的脑容量增长有关。换言之,在自闭症中,发育中的大脑首先在表面积上扩展了12个月,然后在整个体积中增加了24个月。 这个团队还在24个月的时候对孩子进行了行为评估,当时他们已经够大了,开始表现出自闭症的标志性行为,比如缺乏社会兴趣,语言延迟和重复的身体动作。研究人员指出,大脑过度生长越多,孩子的自闭症症状就越严重。 皮肉切割手术精准度,机器人击败了外科医生 在最近的一系列实验中,智能自主机器人STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。 STAR通过视觉追踪其预定的切割路径,切割工具并不断调整其计划以适应自身移动,最终完成工作。 对于这种视觉追踪,机器人依赖于研究人员事先在组织上放置的微小标记,这些标记显示在近红外摄像机上。研究人员因此将STAR称为半自主机器人。 机器人和外科医生都被要求切割直线5厘米的线。由于外科医生训练在已知标志之间切割组织,而不是切断绝对距离,因此在皮肤上绘制参考线。一些外科医生在开放式手术设置下进行了切割,而另一些外科医生进行了腹腔镜设置,这是日益普遍的手术操作,其中工具通过一个小孔插入。 机器人和人类都是根据它们偏离理想长度的理想切割线以及包围切口多少焦炭(受损的肉)来判断的。结果:STAR的切割长度接近5厘米,与理想的切割线偏离较少,并且导致焦点较少。 深度学习能帮助临床医生预测阿尔茨海默病(老年痴呆)吗? 阿尔茨海默病没有临床试验,因此医生通过评估患者的认知能力下降来诊断。但对于轻度认知功能障碍(MCI)的诊断特别困难,即症状不明显的早期痴呆阶段。而且更难预测哪些MCI患者会发展为阿尔茨海默病。 目前,哈佛大学领导的研究小组率先尝试将fMRI扫描和深度学习结合到一个能预测MCI患者发展为阿尔茨海默病的概览的项目中。静息时对患者进行fMRI扫描,与任何fMRI扫描一样,它们揭示了大脑中电信号的闪烁以及这些区域如何相互关联。 这种关系的术语是功能连接性,并且随着患者发展MCI而改变。这是因为信号依赖氧气流向神经元,但是阿尔茨海默病患者中tau蛋白的积累会扼杀这些神经元,导致脑部区域萎缩。 该小组想要看看他们是否可以使用功能连接的这些变化来预测阿尔茨海默病。他们从93名MCI患者和101名由阿尔茨海默病神经成像倡议提供的正常患者的数据开始。研究人员根据参与者大脑90个区域的130个fMRI测量结果的时间序列,可以确定信号在一段时间内闪烁的位置。...
ChatGPT:金融行业大模型BloombergGPT
AI金融助手

ChatGPT:金融行业大模型BloombergGPT

一、简介 金融科技(FinTech)是一个庞大且不断增长的领域,NLP技术在其中扮演着越来越重要的角色。金融NLP任务包括情感分析、命名实体识别、新闻分类以及问答。虽然这些任务与一般NLP基准中的任务相似,但金融领域的复杂性和术语保证了一个特定领域的系统是有价值的。生成式LLM通常是有吸引力的,因为它能够进行少样本学习、文本生成和会话系统等。虽然有针对金融领域调优的掩码语言模型,但还没有针对该领域的任务进行调优或评估的LLM。 BloombergGPT 是彭博社在2023年3月发布的一个 500 亿参数的大型语言模型,专门为金融领域从头构建。它是一个大规模生成人工智能模型,专门针对金融数据进行训练,以支持金融行业内多种自然语言处理任务。彭博社通过构建这个模型,将帮助公司改进现有的金融 NLP 任务,如情感分析、命名实体识别、新闻分类和问答等。 二、特点 BloombergGPT采用了混合方法,结合了通用 LLM 和特定领域 LLM 的优点。通用模型能够在多种任务中执行良好,并在训练期间避免了专业化的需求。然而,现有的特定领域模型的结果表明,它们无法被通用模型所取代。BloombergGPT支持一组庞大且多样化的任务,通用模型能够很好地为我们服务,但绝大多数应用都在金融领域内,由特定模型更好地服务。因此,构建了一个模型,在金融基准上取得了同类中最好的结果,同时也在通用 LLM 基准上保持有竞争力的表现。 Bloomberg 的 ML 产品和研究小组与公司的 AI 工程团队合作,利用公司现有的数据创建、收集和整理资源,构建了一个大型特定领域数据集。作为一家金融数据公司,Bloomberg 的数据分析师已经收集和整理了超过 40 年的金融语言文档,拥有广泛的金融数据档案,涵盖了多种主题,并对数据来源和使用权进行了仔细跟踪。该团队从这个庞大的金融数据档案中提取出了一个包含 3630 亿个令牌的英文金融文档的综合数据集。这些数据与一个 3450 亿令牌的公共数据集结合在一起,形成了一个包含超过 7000 亿个令牌的大型训练语料库。使用这个训练语料库的一部分,该团队训练了一个 500 亿参数的解码器仅因果语言模型。最终得到的模型在现有的金融特定 NLP 基准测试、一套 Bloomberg 内部基准测试和流行基准测试中广泛类别的通用 NLP 任务(例如 BIG-bench Hard、知识评估、阅读理解和语言任务)上进行了验证。结果表明,混合训练方法产生了的模型,在域内金融任务上大大超过现有模型,在三个测试的 AI 模型中表现最佳,得分为 62.51,OPT-66B 的得分为 53.01,GPT-NeoX...
GPT-4考90分全假!30年资深律师用ChatGPT打官司,6个虚假案例成笑柄
AI律师助手

GPT-4考90分全假!30年资深律师用ChatGPT打官司,6个虚假案例成笑柄

来源:新智元   本文为3505字,建议阅读7分钟 本文介绍了ChatGPT对司法工作的影响案例。 【导读】ChatGPT又有什么错呢?美国律师向法院提交的文件中,竟引用了6个根本不存在的案例,反倒惹祸上身被制裁。ChatGPT,真的不可信!在美国近来的一起诉讼案件中,一位律师帮原告打官司,引用了ChatGPT捏造的6个不存在的案例。法官当庭指出,律师的辩护状是一个彻头彻尾的谎言,简直离了大谱。然而,律师为自己辩护中,甚至提交了和ChatGPT聊天截图的证据。显然,ChatGPT称「这些案例都是真实存在的」。本为原告打的官司,自己竟惹祸上身,将受到制裁,这波操作瞬间在网上引起轩然大波。毕竟,GPT-4刚诞生时,OpenAI放出它在律师资格考试(UBE)的成绩,还拿到了90分。网友警告,千万不要用ChatGPT进行法律研究!!!还有人戏称,要怪就怪你的prompt不行。 律师承认使用ChatGPT 这起诉讼的起始和其他许多案件一样。一位名叫Roberto Mata的男子在飞往纽约肯尼迪国际机场的航班上,不幸被一辆餐车撞到膝盖,导致受伤。由此,他便要起诉这架航班的「哥伦比亚航空公司」(Avianca)。Mata聘请了Levidow,Levidow & Oberman律所的一位律师来替自己打这个官司。接手案子后,律师Steven A. Schwartz向法院提交了一份10页的辩护状。其中,引用了6个相关的法院判决: Varghese V. 中国南方航空公司 Shaboon V. 埃及航空公司 Petersen V. 伊朗航空公司 Martinez  达美航空公司 Estate of Durden V. 荷兰皇家航空公司 Miller V. 美国联合航空公司 原文件: https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf 然而,让所有人震惊的是,从案件本身,到司法判决,再到内部引文,全是假的!为什么假?因为是ChatGPT生成的。这不,麻烦就来了。目前,对方律师考虑举行听证会,对原告律师进行制裁。Schwartz律师,可以说已经非常资深,在纽约从事法律工作已有30年。从他的话中得知,自己吃了大亏,竟是从来没用过ChatGPT,由此没有意识到它生成的内容是假的。说来,还是太离谱。原告律师Steven A. Schwartz在一份宣誓书中承认,他确实用了ChatGPT进行相关研究。为了验证这些案件的真实性,他做了唯一一件合理的事:让ChatGPT验证这些案件的真实性。他告诉法官,「自己无意欺骗法庭或航空公司」。当他询问ChatGPT这些案件的来源时,ChatGPT先是为之前的表述不清道歉,但还是坚称这些案件都是真实的,可以在Westlaw和LexisNexis上找到。而对方律师也同样坚持,来自Levidow & Oberman律师事务所的原告律师是多么荒唐可笑,由此才引发了法庭对这个细节的重视。在其中一个案例中,有个叫Varghese的人起诉中国南方航空有限公司。然而这件事压根不存在。ChatGPT好像引用了另一个案件——Zicherman起诉大韩航空有限公司。而ChatGPT把日期、案件细节什么的都搞错了。Schwartz此时才悔恨地表示,他没有意识到ChatGPT可能提供假案件,现在他非常后悔用生成式AI来进行法律研究。法官表示,这种情况前所未见,并将于6月8日举行听证会,讨论可能的制裁措施。这件事情再次体现了一个很重要的事实,那就是用完ChatGPT必须用其它来源进行双重,甚至三重查证。而AI模型在信息输入上出现重大事实错误已经不是第一次了,谷歌的Bard也遇到过这种问题。 90分?GPT-4成绩被夸大 还记得GPT-4刚刚发布那天,「小镇做题家」在各项考试指标上接近满分的水平。尤其,在美国统一律师资格考试(UBE)中,GPT-4可以拿到90%水平,而ChatGPT(GPT-3.5)也仅拿到10%的分数。但是,没过多久,来自MIT的研究人员Eric Martínez发了一篇论文,重新评估了GPT-4在Bar考试中的表现。论文直言,GPT-4的律师考试成绩被夸大了。 论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311作者在文中提出了4组发现,表明OpenAI对GPT-4在UBE的表现,尽管明显比GPT-3.5有令人印象深刻的飞跃,但似乎过于夸大。特别是,如果被当作代表「百分位数下限范围」的保守估计。更不用说,意在反映一位执业律师的实际能力了。首先,GPT-4的律师考试成绩,是与2月份伊利诺伊州律师考试的应试者相比较的。值得注意的是,这些考生都是复读生,不难理解,他们的分数可能会更差。其次,最近一次七月份考试的数据表明,GPT-4的UBE成绩为68%。第三,通过检查官方NCBE数据,并使用若干保守的统计假设,估计GPT-4在所有首次考试中实现63%。最后,当只考虑那些通过考试的人(即已获得许可或待许可的律师)时,预计GPT-4的表现将下降到48%。网友称,更准确来说,GPT-4应该只有63分,或者68分。文中,作者还提供了深刻的见解,探讨了将法律任务外包给AI模型的可取性和可行性。甚至,人工智能开发人员实施严格和透明的能力评估,以帮助确保安全和可靠的人工智能的重要性。要是,原告的那位律师看过这项研究后,说不定就不会吃大亏了。 ChatGPT胡说八道 归根结底,ChatGPT能够编造出6个不在的案例,还是因为它固有的「幻觉」问题。直白来讲,就是张口胡说八道的天性所致。就连马斯克都想拯救这个致命的问题,官宣推出了名为TruthGPT的AI平台。马斯克曾表示,TruthGPT将是一个「最大的求真人工智能」,它将试图理解宇宙的本质。然而,别管什么GPT,幻觉很难搞定。前段时间,OpenAI联合创始人兼研究员John Schulman在演讲「RL and...
心理测量与语言学数据集PhDGPT:大模型的情感与认知分析
AI情感助手

心理测量与语言学数据集PhDGPT:大模型的情感与认知分析

随着人工智能技术的发展,机器心理学成为一个新兴领域,它研究大模型(LLMs)如何通过自然语言处理再现和理解人类的心理过程。机器心理学不仅探讨这些模型的认知能力,还分析其在处理情感和心理健康问题上的表现。近年来,LLMs,如OpenAI的GPT-4和GPT-4o,因其在生成和理解人类语言上的卓越表现,引起了广泛关注和研究。 大模型能够通过大量文本数据的训练,模拟人类的语言和思维方式。然而它们在情感理解和心理测量方面的能力仍存在局限。为了更好地了解这些模型在心理学领域的应用潜力,研究人员开始探索LLMs在模拟人类心理状态、处理情感信息以及提供心理健康支持方面的能力。 11 月 19 日arXiv发表的论文《PHDGPT: INTRODUCING A PSYCHOMETRIC AND LINGUISTIC DATASET ABOUT HOW LARGE LANGUAGE MODELS PERCEIVE GRADUATE STUDENTS AND PROFESSORS IN PSYCHOLOGY》介绍了PhDGPT数据集,这是一个新的提示框架和合成数据集,旨在研究LLMs如何感知和模拟心理学博士研究生和教授的心理状态。PhDGPT数据集包含了75.6万个数据点,通过模拟不同的学术事件、性别和职业层级,生成抑郁、焦虑和压力的心理测量分数及其解释文本。研究的主要目的是通过PhDGPT数据集,揭示LLMs在处理心理学领域中的情感和认知偏见,以及它们在再现人类心理复杂性方面的能力和局限性。 PhDGPT数据集由特伦托大学心理学与认知科学系的研究团队开发,成员包括Edoardo Sebastiano De Duro,他是心理学与认知科学系成员,对心理测量和语言模型有深入研究。Enrique Taietta是心理学与认知科学系成员,与Edoardo共同致力于研究大模型在心理学领域的应用。Riccardo Improta是心理学与认知科学系成员,参与多项心理学研究,特别是在心理测量和认知科学方面。Massimo Stella是心理学与认知科学系成员,是这项研究的通讯作者,专注于心理测量、认知科学和大模型的交叉研究。 这个团队共同推出了PhDGPT,一个全新的数据集和提示框架,用于研究大模型对心理学博士研究生和教授的感知。他们利用OpenAI的GPT-3.5,通过严格的提示工程技术,创建多样化的人物角色和学术场景,旨在通过网络心理计量学和心理语言学方法,分析LLMs生成的心理数据和人类数据的异同。 研究方法 PhDGPT是一个由75.6万个数据点组成的综合数据集,旨在捕捉大模型(LLMs)对心理学博士研究生和教授的心理状态感知。该数据集通过模拟15个学术事件(如考试、研究、发表等)、两种性别(男、女)和两种职业层级(博士生、教授),生成抑郁、焦虑和压力量表(DASS-42)的42个独特项目反应。每个情景重复300次,以确保数据的多样性和可靠性。数据集不仅包含数值心理测量分数,还包括每个分数的简短文本解释,从而提供了一个心理测量分数与文本描述相结合的双重视角。 图1:构建PhDGPT所采用的条件表示。 为了生成PhDGPT数据集,研究团队使用了提示工程技术,通过OpenAI的API调用GPT-3.5模型。他们设计了一个复杂的提示框架,让模型在不同角色和学术场景中进行角色扮演。提示内容包括具体的学术事件、性别和职业层级,例如“你是一名准备参加统计学综合考试的女性博士生”,从而引导模型生成与该情景相关的心理测量分数和解释文本。为了增强角色扮演效果,提示框架中采用了重复提示技术,避免模型产生幻觉,同时增加对所扮演角色的识别。 图2:用于女性、博士生、发布条件的提示示例。(a)正态,(b)负价,(c)中性条件。 数据收集过程通过对每个情景进行300次API调用,生成包含DASS-42量表分数和文本解释的数据。研究团队采用了探索性图分析(EGA)方法,对生成的心理测量数据进行深入分析,比较模型生成的心理计量网络与人类数据,并映射到抑郁、焦虑和压力的原始子量表上。通过计算纯度,评估模型在重现人类因子结构上的能力。 作为额外的聚类质量评估指标,研究团队采用了纯度。纯度表示根据预定义的地面实况正确分配的集群内数据点的比例。在他们的案例中,基本事实是指与我们的心理测量评估中的项目相关的原始类别(例如,抑郁、焦虑、压力)。为了计算纯度,我们可以根据原始子量表的心理结构来描述每个因素Fi(D表示抑郁,A表示焦虑,S表示压力)。例如: •F1:{D1={34,17,21,38,13,26,37,10,3,16,24,31},A1={∅},S1={≩}} •F2:{D2={5,42},A2={9},S2={33,12,8,22,29}} •F3:{D3={∅},A3={25、40、4、15、41、7、20、23、36、19、30、28、2},S3={≟}} •F4:{D4={∅},A4={≩],S4={39、32、35、14、18、27、6、11}} 在D、A和S上聚集将导致社区结构,{Ci}i={Di∪Ai \8746 Si}i,其纯度将估计为:...