ChatGPT助力AI大模型:破解数据稀缺难题
这篇文章介绍了如何解决大规模语言模型数据稀缺的问题。许灿文和中山大学团队提出了一种能自动生成高质量多轮聊天语料库的方法,通过 ChatGPT 与自身对话生成对话数据,并利用这些数据调优、增强开源的大型语言模型 LLaMA,得到了高质量的专属模型“白泽”。同时,他们还提出了一种新策略,利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练,以提高模型效果并降低隐私风险。此外,上海交通大学博士生曹瑞升提到,深度学习需要大量的数据对来训练,因此在医疗等不容易获得大量真实数据的领域,需要人工生成更多的数据对。


