北医三院：ChatGPT用于用药咨询行不行？

北京大学第三医院药剂科翟所迪、何娜等于2023年6月22日在《J Telemed Telecare》发表题为《Chat GPT-4 significantly surpasses GPT-3.5 in drug information queries》。文章比较了GPT-3.5和GPT-4在用药咨询中的准确性和重复性。研究人员还探讨了GPT-4相对于GPT-3.5的潜在优势。

研究人员从医院记录中回顾性地选择了24个典型的用药咨询问题，其中一半由医护人员提出，另一半由患者提出。问题涉及药物治疗的各个方面，如适应证、剂量、不良反应、药物相互作用等。问题的答案可以从药物说明书、指南或Micromedex数据库中找到。

研究人员分别在2月21日和3月28日向GPT-3.5和GPT-4提交了这些问题，并记录了它们的回答。为了评估回答的可重复性，每个问题都由三位独立的调查人员以相同的方式提出。两名药师将回答评定为“准确”或“不准确”，并通过与第三名药师协商解决分歧。如果一个问题得到三个一致准确的回答，那么这个问题的可重复性就被认为是“良好”。研究人员还为每个问题选择最佳答案，并分析GPT-4和GPT-3.5给出最佳答案的比例。

结果显示，GPT-3.5组产生了72个答案，其中52个（72.2%）被评为“准确”。相比之下，GPT-4组产生了64个（88.9%）“准确”回答（P=0.012）。在24个问题中，GPT-3.5组有11个（45.8%）始终得到三个“准确”回答，而GPT-4组有20个（83.3%）（P=0.007）。这表明GPT-4在准确性和重复性方面都优于GPT-3.5。此外，在能够选择最佳答案的20个问题中，14个（70.0%）来自GPT-4组，其余6个（30.0%）来自GPT-3.5组。这表明GPT-4生成的回答比GPT-3.5生成的回答内容更丰富、更有条理、更可读。

然而，研究人员也发现ChatGPT查询存在一些缺点。例如，不准确的回答可能会带来安全风险；相同的问题可能会产生不一致的回答；ChatGPT不提供引用，并且缺乏识别自身错误的能力。

研究人员认为，ChatGPT在医疗保健领域具有巨大潜力，特别是考虑到医疗资源的稀缺性和人工智能系统的可访问性。医疗从业人员可以利用人工智能生成的回答增强决策能力和临床效率；患者可以利用人工智能生成的回答获取初步咨询信息，并寻求专业医疗建议。未来，如果人工智能系统能够实时训练专门的医疗信息数据库，其价值将进一步提升。有必要进行更多的研究，以评估人工智能在不同医疗环境中的应用能力，并探索与之相关的潜在风险。