高德娱乐古籍数字化正饱舞古籍整饬范式变革 社会科学报
高德娱乐高德娱乐古籍既是先贤智慧的结晶,又是文明传承的重要载体。近年来,古籍数字化不断提速,图像化和全文化已经取得突破性进展,古籍数字化进入到知识挖掘和语义分析的新阶段。随着信息技术手段大规模介入古籍整理工作,可以预见古籍整理领域将迎来范式的变化。
与国际上的情况一样,我国古籍数字化也起源于文本计算研究。最初的主题是《红楼梦》后四十回的作者问题。1980年,时为威斯康星大学东亚系博士的陈炳藻发表会议论文,利用计算机统计词频讨论这一问题。1984年台湾“中研院”开始建设“汉籍全文数据库”,并于2007年与台湾大学合作成立“数位人文研究中心”,成为数字人文研究的重镇。差不多同时中国社科院也由栾贵明牵头,在钱锺书的大力支持下,陆续建成《全唐诗》《诸子集成》等全文检索系统。1988年起,香港中文大学逐步建设“汉达古籍数据库”。而线年由香港迪志文化和上海人民出版社合作开发的电子版《文渊阁四库全书》,一时间它成为人文学者必备的研究工具,开启了后来爱如生、书同文、雕龙、鼎秀等古籍数据库的先河。现在看来,古籍数字化工作或许可以分为四个阶段:图像化、文本化、知识化和智能化,这些古籍图文对照数据库即是文本化阶段的代表性成果。在这一进程中,文本数据从人工录入逐步转变成OCR(光学字符识别,英文全称是optical character recognition)识别和聚类校对。
随着古籍图文库建设技术的逐步成熟,学界开始探索建设古籍知识库,例如北京大学中文系李铎团队就基于语义网和本体的思想,先后开发了“全唐诗分析系统”“全宋诗分析系统”“中国历代典籍总目系统”等知识库产品。尤其是2008年开始与中华书局合作开发的“资治通鉴分析平台”,不但是古籍知识库的先锋,到目前为止还是代表性成果。其他如浙江大学徐永明团队的“智慧古籍平台”、北京大学王军团队的“识典古籍平台”、德国马普科学史所薛凤团队的“LoGaRT(中国地方志研究平台)”、中华书局的“古籍智能整理平台”等。随着大模型技术的突破和快速发展,也出现了古籍大模型成果,例如南京农业大学王东波团队的“荀子古籍大模型”、北师大和中华书局合作的“AI太炎”等。
在没有大模型技术之前,我们尝试构建知识库,利用文本分析的方式探索理解语义。这就需要对古籍文本进行分词和命名实体标记,然后建立各种命名实体之间的语义关系,从而获得大量有确切含义的语义材料,构成一个语义网,在此基础上尝试对文本进行语义分析甚至理解。其中,分词是因为汉语书写时不像印欧语一样词汇之间分隔开来,如果不分词,就会造成歧义,比如“搜罗汉语资料”句中的“罗汉”并不是一个词。而命名实体标记主要是从文本中提取诸如人名、地名、时间、职官、机构、书名等专有名词,因为这些命名实体语义单一,也是构成各种语义关系的主体。比如“李世民”出生在“隋开皇十八年”这一语义三元组,出生表示一种语义关系,“李世民”是一个人物实体,“隋开皇十八年”是一个时间实体高德娱乐。在文本完成命名实体识别之后,我们就可以利用这些专有名词进行关系抽取,得到上面提到的类似李世民出生时间的关系三元组,作为一个基本的语义单元。最后就可以利用这些语义材料进行分析和理解,“知识图谱”就是一种为此开发的工具。
说起来简单,但实际工作中会遇到很多困难。其中最核心的挑战就是语义消歧问题,这主要来源于词语的别称和“同形异义”,我们拿人物实体“唐代诗人李白”来说,他就有“太白”“青莲居士”“诗仙”等别称。而且有和他同名的人,比如《资治通鉴》就记载南北朝时期一位将军名为“李白”。古书上常有“桃红李白”之语,这里的“李白”是“李树花白”的意思,而“太白”在古书中又可以指“终南山”“太白金星”等实体,这些都属于“同形异义”。要解决以上问题,可能的方法是实现文本语义的“本体化”。通俗地说,“本体”就是一个语义所指。在上面的例子中,“唐代诗人李白”就是一个人物本体,“太白”“青莲居士”等出现在古书文本中都是“李白”这个人物本体的文本标记而已。中华书局有一套分史的《二十四史人名索引》,它把二十四史中出现人物的地方都作了标引,在常用名后面还附注了别名、字、号、谥号等,使所有人物出现的文本位置都列在该人物主条目下,这实际上就是简单的人物“本体化”。“资治通鉴分析平台”共作了284345个人物标记,指向36482个人物本体。
截至目前,古籍OCR和校对技术已经非常成熟,命名实体标记、关系抽取等技术也取得长足进步,但因为还需要大量人工干预,所以遇到了瓶颈,长期进展缓慢。以此为基础的语义分析和理解也就“巧妇难为无米之炊”,高质量的数字人文研究难以涌现。另外,从源头上讲,由于历史原因,古籍文本库大多是商业数据库,没办法开放共享,这也大大限制了后续研究的推进。从这个角度上讲,现在学界亟需一个覆盖基本典籍且质量上乘的开放古籍文本库。有了这一基础,很多古籍研究的问题才能实现。这里举一个例子,即古籍的他引。部分年代较早的他引文字往往体现典籍早期的文本面貌,很有参考价值。我们可以通过引用书名、作者等标志靠检索来获取,但是靠检索很难识别暗引文字。其实,人力也很难办到,这是因为很少有人能对原典全文烂熟于心,一见到相似文字就能发现,况且阅读量巨大,是“不可能完成的任务”。如果利用“论文相似性检测”算法,在上万种古籍文本库中全面获得相似性文本,那么无论对典籍校勘还是对典籍传播史,都将助力巨大。
最近,大模型技术日新月异,利用其进行命名实体标记、关系抽取等工作应该成为一个可探索的方向。由于大模型是基于通用的海量公开或半公开数据,因此,针对古籍的功能起初不一定强大,需要我们用更多的古籍数据去加强训练,这就又回到开放古籍文本库这一问题上。另外,古籍相关的人名、地名、时间、职官、机构、书名等本体知识库也需要建设起来、开放共享,虽然这些数据总数不少,但和古籍文本一样,毕竟都是有限的,是可以在一定时间内完成的。根据全国古籍普查,公藏古籍大约有20万个品种,50万个版本,其中,至少5万种已经扫描,至少4万种已经文本化。应该说,重要典籍已经基本完成数字化,关键是这些成果如何能开放共享,被学界充分利用,扎扎实实把古籍数字化工作推向知识化、智能化的阶段。
今后的几年正是信息技术手段大规模介入古籍整理工作的风口期,可以预见不远的将来,古籍整理领域将迎来范式变化。依据现有技术,我们可以开发一个智能辅助的古籍整理出版平台,数倍地提高古籍整理出版的速度。因为文本OCR、自动标点、命名实体标记等技术已经逐渐成熟,将待整理古籍的不同版本进行OCR识别并聚类校对以后,就能实现自动文本对校,在保证质量的同时能够十数倍地提高古籍整理速度,就好像“孙悟空的毫毛”让古籍整理者化身千万。在可见的将来,完成全部古籍遗产的整理工作成为可能,这是我们这一代人的历史使命。
最终,随着以文献数字化、大数据与人工智能等为核心内容的数字人文的不断发展,传统凭借纸质图书馆进行人文研究的范式必然向依靠数字人文平台进行学术研究的范式转换。高等院校和研究机构,谁在这场“数字人文革命”中抢占先机,谁就可能笑到最后。
版权声明:本文内容由网友上传(或整理自网络),原作者已无法考证,版权归原作者所有。我们免费发布仅供学习参考,其观点不代表本站立场。
转载请注明:原文链接 | https://www.hnwohai.com/html/guji/1989.html