南农大团队打造‘荀子’古籍大语言模型：古籍阅读与研究的利器

文章主题：南农大, 团队, 荀子, 古籍大语言模型

原标题：南农大团队研发“古籍版ChatGPT”，为何取名“荀子”

“荀子”古籍大语言模型示意图微信公众号@南农信管之窗CIM 图

近日，我国南京农业大学的信息管理学院科研团队成功开发出了国内首个专门用于古籍处理与研究的智能工具——“荀子”古籍大语言模型。此模型包含超过20亿字的《四库全书》等古籍文献，并具备自然语言理解、自动翻译以及自动标引等功能。值得一提的是，这款模型已经在GitHub、ModelScope等网站上实现了开源。这一成果展示了我国在古籍处理技术方面的重大突破，也为相关领域的研究提供了有力支持。

王东波强调，荀子不仅是一位杰出的先秦朴素唯物主义思想家和散文家，他在语言学理论领域的贡献同样值得称道。因此，以他的名字来命名这一项目，旨在缅怀这位语言学的奠基人。对于普通读者而言，接触繁体、竖版、无句读的古文并非易事。然而，随着“荀子”项目的上线，智媒时代的来临使得古籍的解读变得更加便捷。古文的阅读理解、标点添加以及翻译成现代汉语等难题，都可以轻松地交给“荀子”处理。而对于专家来说，他们还可以利用这个平台完成诸如古籍词法分析、实体识别、关系抽取、文本分类与匹配以及文本摘要等任务。

“荀子”的诞生，与其背后的高性能算力基础设施紧密相连，同时也离不开团队长期的精加工语料库，其投入的数据量高达40亿字。王东波指出，虽然模型的构建受到算力和场景应用等因素的影响，但是，高质量、精准度的数据才是关键。自2008年开始接触古籍，团队在2013年至今一直致力于人工精标注数据的收集工作。举例来说，《岳阳楼记》中，为了训练机器对其中形容词的标注，首先需要训练相关人员对形容词进行标注，然后在大量的人工标注之后，让机器学习。

王东波表示，期待通过“荀子”大语言模型，将古籍的智能化研究与跨学科人才培养结合，让学生既有前瞻的科研视野，又积累较深厚的人文底蕴，同时让更多受众接触、品读、传播古籍，唤活“故纸堆”。返回搜狐，查看更多

责任编辑：

南农大, 团队, 荀子, 古籍大语言模型

南农大团队打造‘荀子’古籍大语言模型：古籍阅读与研究的利器

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

AIGC ChatGPT

相关文章