文章主题:ChatGPT, GPT-3.5, GPT-4, 范斯坦医学研究所
通过国外的一项测试,ChatGPT未能通过美国胃肠病学学会的考试,也无法为患者提供准确的医疗信息。
一项由范斯坦医学研究所的专家主导的研究,对ChatGPT的两种版本进行了测试,这两种版本分别是基于OpenAI旧有的GPT-3.5模型和最新发布的GPT-4系统。在这个研究中,学术团队将2021年和2022年美国胃肠病学协会(ACG)的自我评估测试的多项选择题内容进行了复制粘贴,然后让AI对其进行解答。
值得注意的是,基于GPT-3.5的较低版本的性能相当不错,正确回答了455道题目中的65.1%,而其强大的GPT-4模型则仅能 correct 62.4% 的题目。这样的表现尚不足以满足通过考试的70%门槛。这种现象的出现较为神秘,因为OpenAI对于其训练模型的具体方法保持高度保密。据该公司代表透露,这两种模型均是基于2021年9月的最新数据进行训练的。
范斯坦医学研究所的一位研究胃肠疾病的副教授Arvind Trindade表示,虽然这个分数离及格或达到70%已经不远了,但我认为,在医学咨询或医学教育方面,分数应该在95分以上。
我们总以高标准要求我们的医生,那么也应该要求医疗聊天机器人有这么高的标准。
要成为一名经过美国胃肠病学学院认可的胃肠病学家,医生必须接受严格的培训和考核。首先,他们需要完成一系列由该学院提供的培训课程,以掌握胃肠疾病的诊断、治疗和管理方法。此外,医生还需要参加美国内科医学院组织的胃肠病学 examination,这是一项旨在评估医生在胃肠病领域专业知识和服务质量的考试。要顺利通过这个考试,医生需要具备扎实的理论基础和实践经验,并能够熟练运用所学的知识来解决实际问题。总之,成为一名优秀的胃肠病学家 requires a combination of thorough training, strong expertise, and constant practice.
ChatGPT是一种基于人工智能的技术,其工作原理是通过预测句子中下一个单词来生成相应的响应。在训练数据中,该技术学习到了一些常见的模式,从而能够判断在回忆信息时应该使用哪个单词,具有一定的准确性。然而,尽管这项技术的进展相当迅速,但它并非完美无缺,并且有时可能会产生不准确的信息。
ChatGPT 的主要功能在于利用现有信息预测文本序列中的下一个词汇,以生成预期响应,但这并不代表它所生成的响应一定准确无误。该模型对于特定主题或问题并无深入理解,换言之,它的回答可能是机械性的。
在实际应用中,我们需注意,对ChatGPT进行训练时,依赖网络上的胃肠病学信息可能存在一定的误差。为了确保训练结果的准确性,使用医学期刊或权威数据库等优质资源是更为理想的选择。然而,这类资源的获取并非易事,通常需要支付相应费用。因此,ChatGPT有可能无法全面接触到的专业领域知识。
以目前的研究结果来看,ChatGPT还不适用于医疗建议或医学教育。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!