文章主题:新冠疫情, 快速精准防疫, 患者隐私, 合成数据
2022年,美国《医学快报》(MedicalXpress)对于“合成数据”在医疗方面的应用做了一系列相关报道。[1]
新冠疫情的爆发使得快速、精准地防控疫情成为当务之急。然而,在实际患者研究中,我们面临着诸多挑战,尤其是在患者危重时刻获取同意以及在患者不愿离家的情况下开展防疫措施等方面,都为我们的工作带来了巨大的困难。
欧美对于患者隐私比较重视,即便是用于科学研究,在未经患者同意的情况下,也是无法获取其健康数据的。但是,如果可以使用模拟真实患者群体的“合成数据集”进行一些研究,并且不存在泄露患者健康信息的风险,效果会怎么样呢?这是圣路易斯华盛顿大学医学院信息学研究所一项倡议的目标。 该研究所正在为大学研究人员提供更广泛的合成数据集,目的是加快能够拯救生命的研究。
该研究所已经展示了一种名为MDClone的应用,可以根据电子健康记录中真实的患者数据准确地生成合成数据。
MDClone 是一家以色列公司,专注于合成数据在医疗领域的应用,主要业务位于美国、加拿大和以色列。 2022年C轮融资6300万美元,累计融资1.04亿美元。最近发表在《美国医学信息学协会杂志:开放》(Journal of the American Medical Informatics Association: Open)上的一项研究中,信息学研究所的研究人员表明,合成数据准确地模拟了使用真实患者数据集进行的临床研究的结果。
该技术没有采取传统的步骤来隐藏数据集中真实患者的身份,而是生成了一组新的模拟患者,总体上重建真实患者的特征,比如体重指数、血压和肾功能的测量。 这些模拟的患者在真实数据中没有直接的对应对象,因此真实患者的身份和隐私得到了保护。
华盛顿大学信息学研究所主任,菲利普·佩恩博士[2](Philip R.O. Payne)说:“我们已经意识到合成数据的力量可以加速真实患者数据的获取与使用过程。我们不再需要花费数周或数月的时间,而是能够实时与数据进行交互,同时还能保持最高水平的隐私和数据安全。”
他还说道:“我们希望确保华盛顿大学的每个研究人员都能获得这些相同的能力,以推进对一系列疾病、病症和人群的研究与发现。我们正在努力接触同业的研究界,帮助他们获得这一新技术,并期待未来使用该技术成为评估涉及临床数据的标准。”
通过生成合成数据的方式,我们致力于满足最严格的 patient privacy and confidentiality standards. 尽管合成数据本身并不具备与真实个体和身份关联的能力,但研究人员依然能够获得真实的研究成果,如在新冠疫情住院患者中哪些人的死亡风险较高,以及哪些药物对于新冠患者展现出更好的疗效等关键信息。
“通过生成式AI模型,研究人员可以在几分钟或几小时内建立、查询并下载自己的合成数据集。”华盛顿大学医学副教授兼人口健康信息学中心主任兰迪·福雷克[3](Randi E. Foraker)说:“它确实加速了研究过程。以往数据准备需要几个月的时间,使用合成数据可以当天完成,有时只需几分钟。”
他们近期研究比较了三个不同数据集的分析结果:
第一个数据集用于分析儿科创伤患者的死亡风险第二个数据集用于预测哪些住院患者最有可能发生败血症,这是一种危及生命的感染全身反应。 第三个用于制作圣路易斯地区一年内按邮政编码划分的衣原体感染率地图。研究人员发现,合成数据分析的结果在统计上与真实数据的分析相似,各项数据集都得出了相同的结论。在绝大多数情况下,统计结果是相同的,只有在极少数情况下,真实数据集和合成数据集之间存在差异。
“我们的三项分析表明,合成数据相对于原始数据表现良好,但我们仍在测试合成数据的外部限制。”兰迪·福雷克说:“虽然并不能保证在每种情况下合成数据都会完全模仿原始数据,但我们鼓励研究人员进行自己的验证研究。在缺少或申请访问真实数据之前,可以使用合成数据获得一些初步结论和一些假设。这将会是一个非常有价值的应用场景。而且合成数据也使得学生有了接触真实世界患者数据的绝佳机会。”
原文:
参考
^参考文章: https://medicalxpress.com/news/2021-06-synthetic-mimics-real-health-care-patient-privacy.html^华盛顿大学伯纳德和珍妮特贝克尔教授,信息学研究所主任,医学院健康信息与数据科学副院长、医学院首席数据科学家^华盛顿大学人口健康信息学中心 (CPHI) 主任,生物统计学部临时主任,行政数据研究中心 (CADR) 主任,医学院普通医学部医学教授,布朗学院公共卫生教授AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!