ChatGPT助力AI大模型：破解数据稀缺难题

文章主题：医疗, 金融, 语言模型

在当前的科技环境中，医疗和金融等行业的专业术语和数据往往被认为是稀缺的资源，这对大型人工智能模型的开发造成了阻碍。然而，这种观点可能需要重新审视。最近，由天桥脑科学研究院（TCCI）主办的AI For Brain Science系列的第二次会议，从“面向AI模型的数据生成方法及其对医疗领域的启示”这一主题出发，探讨了如何解决大规模语言模型的数据 bottleneck 问题。该会议由上海交通大学计算机科学与工程系副教授吴梦玥主持，并邀请到了青年科学家分享他们的看法和实践经验。

“知识蒸馏”与快速构建专属GPT

国际上一项研究评估指出，ChatGPT回答癌症相关问题的水平已经与美国国家癌症研究所的官方回答持平。然而，ChatGPT只能通过受限的API进行访问。涉及到个人医疗，人们也普遍不希望将个人隐私信息分享给第三方公司。

加州大学圣迭戈分校的博士生许灿文与中山大学团队合作，针对难题提出了一种创新方法。该方法能够自动生成高质量的多轮聊天语料库，其核心是利用ChatGPT与其自身展开对话，从而产生丰富的对话数据。基于这些数据，团队进一步调优并增强开源大型语言模型LLaMA，最终成功打造出了一个名为“白泽”的高质量专属模型。值得一提的是，这个模型的名字源于中国古代传说中的神兽“白泽”，寓意着它具有言辞达意、了解万物情感的能力。如今，“白泽”模型已经在数天前推出了2.0版本，为人工智能领域带来了全新的突破。

许灿文指出，白泽在执行任务过程中并未真正掌握新知识，仅仅是從大模型中提取了特定數據，同時保留了ChatGPT在分點作答、拒絕回答等方面強大的語言能力。這一现象在專業領域中被形象地稱為“蒸馏”。他們進一步提出了“反饋自蒸馏”的观念，也就是利用ChatGPT充当教官，對白泽的回答結果進行評分排序列，進而提升白泽模型的表現力。

许灿文认为，白泽通过自动化的“知识蒸馏”，在特定领域达到ChatGPT的能力，成本却远低于ChatGPT，兼具经济意义和实用意义。在医疗领域，本地化或私有化建构的模型将有利于消除隐私顾虑，辅助患者诊疗。未来也许每个人都将有自己的专属AI助手。

数据生成新策：大模型优化医疗文本挖掘

ChatGPT以其出色的创造性写作能力在医疗、金融、法律等领域中展现了卓越的表现，尤其是在标注数据较少或知识密集型的领域。然而，在具体的医疗文本挖掘任务中，尽管将其直接应用在大规模模型处理医疗文本的下游任务上，其表现却并不总是令人满意。

在医学领域的研究中，数据的重要性日益凸显，而如何有效利用这些数据成为了一个关键问题。近日，我国莱斯大学的博士生唐瑞祥和合作伙伴们提出了一种创新性的解决方案：借助大型模型生成大量的医疗数据，然后用小型模型对这些数据进行精准训练。这种新颖的策略不仅能带来更优的效果，而且由于数据是在本地进行训练，从而极大地减少了隐私泄露的风险。

原内容表述较为简洁，但信息量较大。为了满足您的要求，我将尝试以更高的密度和更丰富的细节重新组织这段文字。随着开源大模型数量的迅速增长以及这些模型的持续优化和改进，它们所生成的文本数据与人工编写的文本数据之间的差异逐渐缩小。这种趋势使得区分GPT与其他文本生成模型变得愈发困难，从而对广大用户对大模型人工智能的信任度产生了影响。因此，确保这些大模型能够准确识别并避免产生误导性的文本数据显得尤为重要。

大模型时代的数据生成有什么不一样？

那么，在没有GPT的时代，科学家们如何解决数据稀缺难题？大模型又带来了哪些新趋势？

上海交通大学博士生曹瑞升谈到，深度学习本质上是一种找出从输入x到输出y的映射过程，所以需要大量的(x, y)数据对来训练。在医疗这样不容易获得大量真实数据的领域，就需要人为生成更多的(x, y)数据对。

展望未来，曹瑞升总结了数据生成在大模型时代的几大新趋势。首先是构建更通用的模型，以确保其能应用于多样化任务。其次是从特定任务出发，进一步精细化地处理。例如，在医疗领域，甚至可以针对特定类型的抑郁症进行专业化的任务处理，提供更精准个性化的解决方案。最后，数据生成和模型训练的过程将从分离走向融合，而为了保证数据质量的硬性过滤也将逐渐被软性控制所取代。

作者：唐闻佳

编辑：唐闻佳

责任编辑：姜澎

*文汇独家稿件，转载请注明出处。

ChatGPT助力AI大模型：破解数据稀缺难题

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章