Portfolio / AI x 文学

擢宁

中山大学 · 研一 · 中国古代文学

聚焦 AI 与文学研究、古籍 OCR、文言文教育产品与古籍自动校勘 Agent,关注技术如何让我们更好地继承文学遗产。期待AI将我们带到一个人更像人的世界。

Research Lens

一切的起点

AI & 文学 文学遗产 解释权 能力监测

如果AI确实通过语言形式了解复杂语义,学会了更好的推理,且朝着更复杂、真实的世界前进,那么,给世界留下一个怎样的AI——它能不能读懂文学,能不能理解暮秋时分诗人的身体感应,这便是新一代人文学者不可回避的责任和义务。在面对先辈们充满褶皱、立体复杂的文学遗产,其话语权不应该完全出让给机器,和机器的设计师。既然AI确实拥有重塑我们未来知识结构的可能性,那么,督促AI朝着更切实继承文学遗产,监测AI对文学的能力到了何处,是否有朝着“文学是人学”的理解方向进步,这些应该是(至少一部分)人文研究者需要致力于探索的志业。假使文学研究学术共同体以AI目前缺乏身体、情感、记忆、意识为由,一票否认其对文学的阐释力(尽管如Geoffrey Hinton认为AI目前已经具有初步的意识),漠不关心AI对文学研究的潜力,那么我们行将看到的未来,更可能是那个不曾接触文学的世界驱逐文学,而不是相反。

Selected Works

项目展示

基础设施

Bert模型视角下的中古诗风嬗变研究

关键词:SikuBERT / Triplet Loss / 聚类分析 / 文学史解释

摘要:在传统的诗学批评以外,本文提出了新的量化视角和实证方法来对中古诗歌风格嬗变进行研究。具体来说,本文基于SikuBERT预训练模型,引入Triplet Loss方法微调之后,用以计算每位诗人的风格平均向量。通过余弦相似度计算诗人向量,用以表征风格的相似性,再进一步使用K-means聚类算法对诗人风格进行分类。

  • 研究定义了从曹操、王粲,至江总、陈叔宝的68位有代表性的作者用以计算
  • 最后发现,机器在不拥有文史常识的前提下,仅靠文本本身,计算的结果也较好符合文学史常识
  • 根据机器结果,研究为一些经典文学史命题,如陶渊明体的文本来源、阴铿何逊诗风比较,提出了进一步的解释和补充
基础设施

SongPanda:符合真实世界的古籍 OCR模型

关键词:文档理解 / 合成数据 / SongPanda-Bench / 多模态模型

摘要:对古籍图像的理解应该视作文档理解任务。如今OCR模型在转录古籍图像时,会丢失了许多本应该获取到的视觉信息。业界利用多模态大语言模型,则实现了对复杂分局文档的信息获取。然而,聚焦于古籍垂直领域,知识门槛高、图像标注成本高,成为了模型真正理解古籍的最大障碍。

  • 文章提出了一种合成古籍图像数据的方法,提供了一个20000余张古籍图像的训练集,这大大降低了古籍垂直领域数据标注的成本
  • 文章还结合古籍版本学知识,精心构建了一个覆盖宋代以来重要刻本,兼顾域外刻本,共来源100余本古籍、356张图像的测试集,并且设计了适用于复杂版面古籍文档识别的评测方法,命名为SongPanda-Bench
  • 最后,基于合成数据,研究用Qwen2.5-VL-7B以LoRA微调得到的SongPanda,在SongPanda-Bench完全了达到业界的SOTA
落地产品

将无同&桃源学境

关键词:AI 教育 / 文言文学习 / Prompt Engineering / RAG

“将无同”&“桃源学境”是一个专注于文言文情境化学习的AI教育平台,旨在通过互动学习、AI辅助帮助中学生掌握文言文知识、热爱文化。我们希望“桃源学境”连接素质拓展+应试考试,每个学生都能拥有一个接近“复旦附中”老师水平的助教。

为什么是文言文?宏观层面,高考加强对文言文的重视。高考新课标(2020年修订)将“加强中华优秀传统文化教育”作为重点之一;推荐篇目数量也从14篇(首)增加到72篇(首)。应试上,文言文是除了作文以外最能提分的部分。许多一线高中语文教师和我们说,高三最重要的提分就在文言文。

现有的教育产品的不足?主要集中在两个方面。1.趣味性/情境性。传统文言文学习枯燥。古人生活离学生较远,没有切身的情境体会。纸质练习册也无即时成就感反馈。2.专业性。LLM在处理文言文任务其实多有错误,学界评测正确率仅67%(丘子靓,2025),如果没有优化处理,则很容易给予错误的知识。

学习环节 复习环节 摘抄环节 伴学环节

以往的教育产品中,核心学习内容均由人工建构。搭建AI+文言文工作流程,不能避免的是幻觉问题,什么时候能让AI来做,什么时候不能。“桃源学境”的古汉语字典、考情分析是专家构建的数据集,用以AI检索,有效消除幻觉。我们依旧要考虑的核心问题是:AI是否能胜任该工作?如果不能的话,能经过优化调节让其做到吗?

在主流学界和业界,优化AI表现的常用方法,主要有Prompt Engineering、RAG、Fine-tuning等。本项目我们主要运用Prompt Engineering和RAG,花了大量的时间,对ocr、标注、考试、范文的四部分AI表现分别进行评测,使之符合预期。比如在AI对文言文遇到的好句子写的高考范文,我们组织了12位评测专家,让他们对这30段文本打分(1-100分),这些专家全部来自于中文系,包含5位本科生、2位硕士生、2位博士生、3位一线教师。经过我们精心迭代的指令,AI范文不仅仅AI味显著减少,而且比人类范文还要好。

随后,我们在78名中学生中开展了一项被试内教育对照实验,对比该平台与传统纸质材料对文言字词的即时学习效果和长期记忆保持差异。实证结果显示,AI情境化平台能显著提升学生的短期学习效率,并在一周后的后测中展现出统计学意义上的更高记忆固化水平。

网站主要定义了四大情境:学习环节、复习环节、摘抄环节、伴学环节。当学生进入“学习”的时候,可以通过拍照上传文言文习题,视觉模型OCR结果,或者“随机造梦”。从后台随机挑选一篇文言文选段,进入学习环境。后台接受到这个文言文段落之后,会按照工作流程,依次生成内容概括;对其进行分句并且注释;标注是否为重点句,如若“是”则生成考题;判断高考模考真题是否涉及过这个字词,如若“是”则列出考情分析;最后生成这段话的相关图片与视频。在生成完成后,学生能够进入平台逐句学习、练习。回答错误时,对应考点会自动归类到错题本中,后台根据这个错字,生成对应的卡片。

平台逻辑

学习模块界面

复习模块界面

摘抄与伴学模块

正在施工

订书机_古籍自动校勘Agent

关键词:LangGraph / 多智能体 / 校勘学 / 幻觉控制

古籍校勘是古籍文献整理的核心工作,旨在通过比对不同版本(底本与对校本)的异文,辨析文字正误。校勘工作是一项知识密集型、劳动密集型的任务,学者不仅需要具备深厚的文字学、音韵学功底,还需在浩如烟海的文献中进行反复查证。

经几代古籍文献专家的统计,1911年以前的古籍(含少数民族文字典籍)约50万种,而新中国成立七十年以来(2019年),粗略估计整理出版的古籍约在3-6万种。还有90%以上的古籍留待后来者的整理。数字化赋能古籍整理,成为当前时代的新方向。随着 OCR 技术的发展,古籍文本数字化已初具规模,但在校勘环节,针对异文的自动化发现、深度分析与考证仍面临巨大挑战。

  • 考证逻辑复杂:判断异文性质(如形讹、音讹、通假、避讳等)需要复杂的推理与外部知识检索
  • 大模型幻觉:通用大语言模型(LLM)在处理专业文献时,常出现“臆造引文”的幻觉问题,无法满足学术严谨性要求
  • “订书机”旨在构建一个具备“主动思考”“多步推理”与“自我反思”能力的古籍自动校勘 Agent 系统,利用 LangGraph 框架实现多智能体协作,模拟人类校勘学者的思维路径,实现从异文发现到校勘记生成的全流程自动化
  • 经过初步测试,“订书机”最后得分于班级中位数,说明其已经拥有接近专业研究生的水平

Contact

联系