AI医师助手
编辑:编辑部 【新智元导读】AI界的「妙手仁医」即将诞生。谷歌今日揭秘了Med-PaLM技术,并发布了最新评估基准,研究登上了Nature。 5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。 今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址:https://www.nature.com/articles/s41586-023-06291-2 这项研究最重要的贡献在于,谷歌提出了全新的MultiMedQA评估基准,以评测大模型在临床方面的能力。 OpenAI带着ChatGPT在通用大模型领域领跑,而AI+医疗这条赛道,谷歌称得上是头部领先者。 有人或许疑问,这和Med-PaLM 2的区别在哪? 论文作者给出了答复,Med-PaLM 2是最新的模型,在USMLE风格的问题上达到了86.5%的准确率,比谷歌自己的Med-PaLM的最先进结果提高了19%。 主要贡献 如何评估AI的回答?尤其,在医学领域,对治病方案、医疗操作准确性要求极高。 目前,常见的评价医疗模型最主要的方法,主要依赖单个医疗测试的得分。 这就像把AI当成考生一样,去测试他的水平,然而在真实的医疗场景中,有时候并不能应对自如,甚至是个未知数。 那么,如何将一个AI考生变成一个真正的AI医生,构建一个全面的评估至关重要。 对此,谷歌提出了一个全新的基准测试——MultiMedQA,其中涵盖了医学考试、医学研究等领域的问题和回答。 基于MultiMedQA,研究人员还评估了PaLM及其指令微调变体Flan-PaLM。 接着,通过利用提示策略的组合,Flan-PaLM在MedQA(美国医疗执照考试USMLE)、MedMCQA、PubMedQA和MMLU临床主题上超越了SOTA。 特别是,在MedQA(USMLE)上比先前的SOTA提高了17%以上。 最后,研究人员通过指令提示微调,进一步将Flan-PaLM与医学领域对齐,并提出了全新的医学模型——Med-PaLM。 在人工评估框架下,Med-PaLM对消费者医学问题的回答与临床医生给出的回答相比表现出色,证明了指令提示微调的有效性。 医疗大模型最新基准MultiMedQA 谷歌最新Nature研究的第一个关键贡献:在医学问答背景下评估LLM。 谷歌构建的最新基准MultiMedQA,是由七个医学问答数据集组成的基准。 其中包括6个现有数据集:MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU临床主题 。 值得一提的是,谷歌在此添加了一个全新数据集,即第7个数据集「HealthSearchQA」。 它由常见的搜索健康问题组成,仅这个数据集就包含了3173个常见消费者医学问题。 具体来讲,这些数据集构成如下: – MedQA数据集由USMLE风格的问题组成,有四个或五个可能的答案。开发集由11,450个问题组成,测试集有1,273个问题。 – MedMCQA数据集包含来自印度医学入学考试(AIIMS/NEET)的194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。开发集很丰富,有超过187,000个问题。 – PubMedQA数据集由1,000个专家标记的问答对组成,其中任务是在给定一个问题的情况下产生一个是/否/可能是多项选择题的答案,并将PubMed摘要作为上下文(Q+上下文+A)。 – MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务:解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。 – LiveQA数据集是作为2017年文本检索挑战赛(TREC)的一部分策划的。该数据集由人们提交给国家医学图书馆(NLM)的医学问题组成。 –...