伊春园2023入口直达大象

旧版网站入口

站内搜索

方广锠:数字化&苍产蝉辫;开创古籍整理新局面

2015年11月10日10:36来源:

历史已经证明,中华民族有着高度文明自觉的优良品格。所谓“高度文明自觉”,不仅指中华民族对自己创造的文明具有高度自信,而且指从古至今中华民族始终采用各种方式力求将自己的文明继承下来,并发扬光大、传承下去。典籍是文明传承的主要载体,皓首穷经、孜孜不倦整理古籍的人士前赴后继,代有人出。在此进程中,中华古籍经历写本、刻本、近现代印刷本等不同时期,现已踏入数字化的大门。

古籍整理尚处初级阶段

现在遇到的问题是,人类社会已进入数字化时代,古籍整理也开始利用数字技术,但总体看仍处于数字化初级阶段,没有真正摆脱传统古籍整理模式束缚,没有真正发挥数字技术优势以开创古籍整理新局面。

所谓古籍整理处于“数字化初级阶段”,主要体现在目前推出的古籍整理数字化成果,大多为纸本古籍整理成果的介质转换,亦即将古籍由纸介质直接转换为数字化介质。举例而言,利用近现代印刷技术推出的古籍有排印本、影印本两种形态。与此相应,初级阶段的数字化古籍,也出现用文字录入方式形成的电子文本及用图像扫描方式形成的扫描本。四种文本两两对应,只是前者为纸介质,表现为一本一本的实体书;后者为数字介质,可以利用网络传播,在显示器上阅览。但无论是传统古籍,还是数字化古籍,目前大抵属于平面展现。当然,初级阶段的数字化古籍已经与纸本古籍不可同日而语。比如,无论是排印本,还是影印本,不少数字化古籍都可以实现全文检索。有些数字化古籍采集检索点,建成关联数据库,初步建立起相关的知识网;有些数字化古籍采用图像技术,营建虚拟场景等等。特别应该指出的是,利用数字技术建立的古籍目录数据库,其强大的检索功能使得纸本目录索引类着作瞠目难及。但是,由于目前古籍整理界还没有真正摆脱传统古籍整理模式的束缚,从而使上述数字化成果的质量也难以突破传统古籍整理的水平,限制了数字化古籍各种功能的充分发挥。

所谓“传统古籍整理模式”,简单讲就是东汉刘向总结的“校雠”方式。所谓“校”,指某人对某一文本进行阅读,依据上下文理,校正错误。所谓“雠”,则由两人合作,一人执一本宣读,一人对另一本逐字核对、校改。随着时代的发展,后代的古籍整理逐渐演变为由某位整理者一人校对两本或数本,最终定稿。一个人,无论学术水平多么高超,能力总有局限;无论工作态度多么精审,人力终有穷尽。所以,采用这种方式完成的成果,难免存在种种不足,以致自古流传这样的感慨:“校书如扫落叶,旋扫旋生。”任何一位古籍整理者,都不敢说自己的工作尽善尽美。可以看到这样的景象:某类文献、某种典籍,不少整理者反复进行整理。如敦煌变文、敦煌本《坛经》的整理校注本,据我所知,至少都在10种以上,多的甚至超过20种。虽则如此,至今尚未出现一个学界公认的“善本”。大量劳动的付出,其间有多少有效劳动或无效劳动,实难统计。

问题还在于,传统古籍整理虽然为读者提供一个整理本、一份校勘记,读者可以对照校勘记阅读整理本,但由于整理者没有提供他所依据的原始资料,因此,如校勘工作本身有疏漏,即整理本的错误没有反映在校勘记中,或校勘记不能反映底本、校本的真实情况,读者就颇为困惑了。例如,国内某权威出版社出版的二十四史,向来被视为古籍整理的翘楚,但至今依然有人不断发现问题,提出商榷,原因就在于此。学术研究要依靠文献资料,如果文献本身的准确性无法保证,那学术研究又如何保证水平、不出错误?

数字化将大大提升校勘效率

利用数字化技术,开创古籍整理新局面的基本原则:一是起于最底层。古籍整理要从最基础原始资料的图形文字、书写符号的切割开始。亦即将所有用于校勘的古籍原本上的全部文字与符号统统切割下来,存入数据库。二是信息全覆盖。信息采集要覆盖原本上的全部原始资料,亦即保留原本中一切可供研究的信息。叁是过程可追溯。利用数字化技术,通过人机互动的切字、认字、定字、校勘、标点等工作环节最终完成古籍整理。整个工作流程的每一步都有记录,都可以追溯与检查,包括每一环节所用资料、所做工作、所得结果。四是功能可扩展。界面友好,可与读者互动,并可随时根据新的情况扩展功能。

利用数字化技术,开创古籍整理新局面的基本思路:首先,从古籍原本最基础的文字与书写符号的切割、辨认开始,即把古籍原本上的每一个文字、每一个符号都切割下来,并将它们全部转换成计算机可识别的具有计算机内码的文字与符号,由此形成基础工作文本与基础字库。基础文本为一个与该古籍原本行文完全一致的数字化文本,以供校勘之用。在这里,传统的底本、校本概念将被颠覆,所有原始文本在新的古籍整理工作中将处于平等地位。基础字库存储该古籍原本的所有文字与符号,并保留其原始图像形态,既供追溯检查所用,又可作为文字研究者的研究资料。其次,系统排比基础工作文本,提示整理者辨析异本。古籍在流传过程中时有异本产生,异本可以参校,不宜混同。故正式校勘之前,必先区别异本。再次,校勘与标点。有经验的古籍整理者都知道,一般来说,用于对校的两个文本的差异不会超过10%。但校勘者必须耐住性子,一个字一个字去校,唯恐有所疏漏。因此,校勘中付出的劳动,几乎有90%以上属于无用功。而由系统自动比对不同文本,如果对应的文字相同,系统自动忽略,仅将不同的文字用色标显示,提示研究者进行勘校。这样,研究者固然还需通读全文,但就校勘环节而言,工作量可以减轻90%左右。不仅如此,系统针对不同情况,设计了校勘记的规范表述格式并按要求自动生成校勘记。研究者进而可利用该系统同时对文本进行分段、标点。

由此完成的数字化整理本,将充分利用数字化技术多层次、多功能的纵深优势,将被整理古籍的文字、文物、文献、研究史等各种信息链接为一个整体,予以立体化呈现。该成果将具有开放性,为读者提供互动平台。读者可以在该平台追溯、检查整理者的全部工作及所用各校本文字、符号的原始图版,评点整理者的工作,提出修订意见,使整理本得以不断修订错误,逐渐升级,最终臻于至善。这种数字化互动模式将彻底改变古籍整理中大量出现重复劳动的现状,使每个整理者的工作、每位读者的修订都成为对该被整理文献的有效学术积累。这种整理本也将为知识点的采集、知识网的构建等各种后续工作赋予更加坚实的基础。

(作者为伊春园2023入口直达大象重大项目“敦煌遗书数据库建设”首席专家、上海师范大学教授)

(责编:李叶)