藏文典籍文献的整理与全文数字化研究的中期检查报告--伊春园2023入口直达大象--人民网

>>伊春园2023入口直达大象>>2016年重大项目>>藏文典籍文献的整理与全文数字化研究>>研究动态

藏文典籍文献的整理与全文数字化研究的中期检查报告

2018年12月03日10:11来源：

一、研究进展情况

（一）研究计划总体执行情况及各子课题进展情况

自2016年11月立项后，本项目按照投标书中的以“藏文典籍历史发展” 为纵向、以“藏文典籍数字化”为横向的研究思路，以开题为界分两阶段完成了如下工作：

1、2016年11月-2017年5月，项目开题阶段。根据立项评审意见，对项目总体框架相关内容进行了深入调研并优化：面对浩如烟海的藏文古籍，精炼了藏文典籍整理的范围，且辅以对传统的、现代的写本、刻本文献的整理、出版等成果、相关理论和方法做出分析和评价；藏文典籍数字化确定为以建设藏文典籍文献之全文数据库和数字化平台为目标。依据深入的调研和具体的实施方案，本项目于2017年5月29日顺利开题，精简典籍整理范围和争取项目外经费支持获得与会专家的充分认可。

2、2017年6月-2018年7月，项目实施初期。项目组织协调了子课题之一、二、叁、四的典籍文献整理和专题选编，组织协调子课题五的基础平台搭建、相关规范和底层技术的研究。目前，项目研究进度符合计划。各子课题进展具体情况如下：

（1）子课题之一“苯教系属文献整理与全文数字化研究”

该子课题具体路径分为四步，第一步是选择苯教文献搜集的区域，按照区域实行文献搜集；第二步在全面搜集文献的基础上，对不同苯教经书进行详细校勘，然后对内容进行文字录入；第叁步是对搜集的文本中，选择最优的苯教经文版本进行翻译，完整呈现出一部系统的苯教文献；第四步是对苯教文献内容进行相关研究。

目前，该课题已整理了藏区民间苯教文献共2000种，对藏区各地散落的古藏文苯教文献进行系统的内容提要的写作和文献整理工作，完成藏文目录编制和内容提要写作。且对目前苯教文献中对于甄选，排版、分类不确切甚至是错误的部分，提出了订正意见；编写了《苯教典籍文献概说》（约2万字）一书部分初稿，主要介绍了苯教大藏经的发展过程，以及目录、版本、校勘、刻板、传承等问题。

（2）子课题之二“敦煌吐蕃古藏文文献整理与数字化研究”

该子课题考虑到国内学术界对法国收藏的敦煌吐蕃文献研究已经走在前面的现实，故提出以整理、研究英国收藏的敦煌、西域吐蕃文献为主线，借鉴国内外研究敦煌吐蕃文献的成果和经验，推进实施，成功完成整理、研究英国收藏的敦煌、西域吐蕃文献的目标。

目前，该子课题已编撰出《新疆、青海出土藏文简牍整理与数字化研究》（约10万字）一书部分初稿，对出自新疆和青海而今藏于英国国家图书馆、新疆自治区博物馆、青海省博物馆的500余枚吐蕃简牍，按地域分类，逐一进行说明介绍，包括序号、题名、编号、形制、尺寸、内容提要、着录状况等，同时收录了日本学者武内绍人等人有关吐蕃简牍的论文等。

（3）子课题之叁“佛教系属藏文刻本文献整理与全文数字化研究”

该子课题以佛教藏文古代刻本文献、现代活字打印出版文献、刻本全文数字化文献等叁种文献整理为研究对象，以刻本文献产生发展的历史、刻本文献分类、刻本文献整理的特点、活字文献整理出版的原则、刻本文献整理中的争议问题、刻本文献全文数字化状况等为视角，就佛教刻本文献整理与数字化问题进行分析研究。

目前，该子课题已赴俄罗斯圣彼得堡东方手稿研究所寻访黑水城发现的藏文刻本文献；已搜集了佛教藏文刻本文献，包括藏文《大藏经》8种刻本，对佛教藏文刻本文献起始、范围、分布（刻本印经院）等进行研究；根据藏文刻本文献特点，提出了整理规范，并结合文本罢贰滨国际通用语言，提出了《信息处理用藏文文献文本信息标记规范》，已于2017年5月在兰州召开最后审定会，提交国家信标委，并于2018年6月批准发布；研究了藏文刻本文献全文数字化的架构体系。

（4）子课题之四“佛教系属藏文写本文献整理与全文数字化研究”

该子课题以苯教、佛教、其他内容写本文献在以藏区为中心的各地传播、影响和藏族典籍文化最初形成、写本文献的贡献与不同时期发展为主线，在比较全面掌握材料的基础上，按照历史发展脉络，分象雄、吐蕃、中世纪、近代、现代等五个阶段，分别研究藏文写本文献与刻本文献、活字版、数字化族等文献关系的历史发展，考辨史实，阐释重要藏族文化事件和主要代表人物的思想，突出其意义和贡献。

目前，该子课题已整理编辑了西藏民族大学馆藏藏文古籍中的大藏经、丛书、文集、史志类、明处类、显乘撰述类、密乘撰述类及其它类等大类目，并对这些大类目内容进行具体分类整理编目；收集了177幅藏传木刻版画资料，内容包括《罗汉图》、《释迦牟尼神变图》、《佛陀十二宏化图》、《莲花生八相图》、《藏传佛教之八大传承》、《萨迦俄尔派坛城图》、《十六罗汉图》、《掘藏师传承图》、《六长寿图》等。

（5）子课题之五“藏文文献全文数字化研究”

该子课题通过设计或选择统一的元数据格式和系统架构，在自建新增的基础上，吸纳已有数据库资源，建设具有一定规模的藏文典籍文献全文数据库；然后，遵循现有文档图像检索领域新兴的词定位技术基本框架，研究藏文典籍文献字符图像特征，并在此基础上深入和扩展，引入并融合文献学信息，探索藏文典籍文献的全信息检索技术，在藏文典籍文献全文数据库的基础上试建全信息检索功能。

目前，该子课题在总项目的组织协调下借助项目外经费支持已初步完成藏文文献全文数字化硬件平台的搭建；已整理完成约50万页的藏文典籍数字图像，完成元数据格式和软件系统架构设计，初步搭建了藏文文献全文数据库；选取了以德格木刻版的《宗喀巴文集》为代表的约2万页的测试图像，搭建了符合藏文文献全文数字化平台底层技术验证所需的藏文古籍图像测试库；在底层技术研究上，已取得了系列进展，解决了复杂条件下的藏文木刻版文档图像几何校正问题，寻找到并验证清楚了适合藏文古籍全文检索技术的藏文古籍文字图像特征的提取方法和匹配算法，研发了藏文古籍全文检索仿真验证系统。

（二）调查研究及学术交流情况

项目开展调查研究及学术交流情况如下：

1.2016年11月，项目组召开2次小型会议，以根据立项评审意见优化项目总体框架为主要目标，统一思路，落实开题前调研工作任务。其中，项目责任单位西藏民族大学、西南民族大学、西北民族大学在西藏民族大学，商议和落实立项评审意见中的文献整理范围和全文数字化方式；项目责任单位西北民族中国民族信息技术处理研究院、西南民族大学藏文文献馆在西南民族大学就藏文古籍文献整理和全文数字化做了深入的交流。

2.2016年12月至2017年5月，项目组在已有调研基础上分3批次赴北京和深入藏区，对藏文古籍文献整理范围和文献数字化新技术进行了确认，完成了开题准备工作。

3.2017年6月至今，项目进入具体实施阶段，各子课题在总结前期工作的基础上，进一步深入文献和田野调查，确认和落实未完成的调研工作，进行补充调查或继续深入调查，并全面开展学术交流活动：

（1）项目组成员参加了2017年9月在乌鲁木齐召开的“历史上的新疆与西藏关系学术研讨会”、2017年7月在四川南充举办的“中国敦煌吐鲁番学会年会暨学术研讨会”、2018年6月在兰州举办的“中国民族史年会暨会员学术研讨会”等学术会议。

（2）2017年9月，项目组成员赴俄罗斯圣彼得堡东方手稿研究所寻访黑水城发现的藏文刻本文献。

（3）2017年7月，项目组成员参加了在杭州召开的“Intelligent Human-Machine Systems and Cybernetics”国际学术会议，对文献数字化前沿问题进行了交流。

（4）项目组成员与国际着名学者、日本大谷大学康嘎次赤木教授建立了师徒关系，这为项目开展国际合作交流提供了帮助。

（5）邀请多名国内专家学者，对与藏文典籍文献、大藏经版本、文献数字化等方面进行了深入交流，如：2017年6月，邀请西藏图书馆副研究员朗错作了“藏文大藏经版本”方面的专题报告；2017年6月邀请四川大学教授、博士生导师张泽洪教授作了“西南少数民族宗教”的专题报告；日本大谷大学康嘎次赤木教授继2016年6月应邀到西南民大讲学一个月后，又于2017年5月、2018年6月到西南民大讲学《藏文古籍文献研究方法》、《传统与现代藏文文献研究方法》、《国外藏学文献研究现状》等专门知识。

（叁）成果宣传推介情况

1、2017年5月29日，本项目举行了开题论证会。来自中国藏学研究中心、西南民族大学、兰州大学、西北民族大学、陕西师范大学、西藏大学、西藏民族大学等高校与科研机构的专家、课题组成员20余人参加了会议。西藏民族大学党委副书记、副校长刘凯参加会议并发表了热情洋溢的致辞，对课题的重大意义给予了充分肯定，并对课题的开展提出了真知灼见。项目首席专家刘勇教授介绍了项目的基本情况。本次开题论证会取得了良好效果，为课题尽快展开研究提供了思路和框架。《西藏民族大学学报》等媒体进行了专门报道，西藏民族大学网及各大网站等对活动综述也进行了转载。

2、2017年5月在兰州召开藏文信息最后审定会上，子课题项目负责人多拉结合文本罢贰滨国际通用语言，提出《信息处理用藏文文献文本信息标记规范》，且此规范提交国家信标委，并于2018年6月批准发布。

（四）研究中存在的主要问题、改进措施，研究心得、意见建议

下面从藏文典籍文献的整理和全文数字化两方面来谈：

1、藏文典籍文献的整理方面的困难

应评审专家意见中的“藏文文献量大，覆盖面也非常大”、“工作量大”、“应适当改变或缩小”，本项目就藏文典籍整理范围做了深入调研并取得了专家们认可的成果，但随着研究的深入，文献收集整理仍然面临如下困难：

（1）文献收集难度较大，例如：民间苯教文献中对苯教经书的识别和分类有难度；文献分布范围较广，这些苯教文献分布在藏区各地，做田野调查有一定的难度；基于苯教宗教信仰的原因，绝大多数苯教藏文写本文献秘不示众，平日供奉高阁，节庆祭祀时才能取出，难得一见，因此，收集文献时受宗教信仰因素制约较大，需对群众做认真细致的工作。

（2）经书名目繁多，从而造成了分类和校勘的困难，例如：经文中不仅出现了苯教特有的符号，而且夹杂一些方言，甚至通篇使用缩写字，加之文本流传年代久远，其中所记录的部分仪轨业已失传，这些经文几乎成为“天书”；翻译是一种再创作，无论是对原文的理解还是译文的表达，翻译古代苯教经文难度都比较大，要达到忠实于原文，翻译用语即是关键点，也是难点。

2、藏文典籍全文数字化方面的心得

应评审专家意见中的“藏文所有典籍文献浩如烟海，要实现其全部的全文数字化，按国家社科重大课题批复的八十万元经费难以完成”，本项目采取了如下两方面措施：

（1）采取了争取项目外经费支持的措施。目前已获取西南民族大学逾一百万资金专用于藏文典籍全文数字化硬件平台的建设和优化，这证明了“以重大项目为牵引，带动相关建设”已取得成效。

（2）坚持长期发展策略，采取以系统研发为先，以文献扫描、信息着录等耗费人力的事项为后的措施。目前已聚焦完成元数据格式和软件系统架构设计，并验证了一些关键前沿技术，且已搭建了约50万页藏文典籍数字图像的数据库，该措施不仅可以规避经费风险，而且有利于浩瀚藏文典籍全文数字化的长远健康发展。

二、研究成果情况

（一）代表性成果介绍

1、《敦煌吐蕃文<寺院施入疏>考释》论文：本文汉译和考释了收藏于英国国家图书馆的两件吐蕃文书（编号IOL Tib J 575、IOL Tib J 1357），初步判定这两件写本可以缀合成一件寺院施入疏，反映的是吐蕃统治敦煌时期，阿骨萨千户下左三将的百姓需要向寺院缴纳供养，或者是部落入籍户向官府举办的“千人斋”、“万人斋”交纳贡物的名单。

2、《&濒迟;后藏乃宁寺志&驳迟;及其价值研究》论文：乃宁寺是西藏近代史上一座较有影响的寺院，对于对乃宁寺的历史考证，目前除了《后藏志》中有少量记载之外，《后藏乃宁寺志》是现今唯一的一部对其进行全面系统介绍的历史着作，也是研究乃宁寺不可多得的一部重要的藏文文献。《后藏乃宁寺志》内容涵盖印度佛教和藏族历史、圣地乃宁寺的形成及其历任堪布、乃宁寺的重要历史、有关《噶陀司徒卫藏志》中的《后藏乃宁寺志》等，全书采用自由式的叙事风格和记叙方式，以人物为中心对佛教相关史事进行详细记载，使后人能够对教法传承及其重要的历史地位有较为清晰的认识。此外，《后藏乃宁寺志》还对历史上与乃宁寺相关的重大历史事件有诸多记载，反映了整个后藏的历史、文化和社会经济等。总之，《后藏乃宁寺》不仅是一部研究佛教历史人物及其相关宗教活动的重要历史文献，而且对藏族文化的传承与发展具有一定的意义。

3、《苯教典籍文献概说》报告：苯教在长期的发展过程中积累了卷帙浩繁的经籍书文，其内容包罗万象，不仅记录了苯教的教理教义、教规教戒，还保留了藏族古代哲学、文学、医药学、音乐、地理等多种学科的珍贵资料，是藏族传统文化的一个宝库。苯教文献的主要由苯教甘珠尔、甘丹、民间苯教文献（藏外苯教文献）三个部分组成。文章主要介绍了苯教大藏经的发展过程，以及目录、版本、校勘、刻板、传承等问题。目前藏学界重视寺院所藏经典的研究，对民间的苯教经典关注很少。作者重点对白龙江流域的民间苯教经典进行实地调查，把大量的民间苯教经典根据苯教传统的分类法为基础, 重新分类编目，进行了初步的探讨和研究。并总结经典中折射的文化信息，对研究民间苯教和藏族文化意义重大。

4、《Effect on convergence from different particle swarms with a unified and simplified formula for position updating》论文：在实现藏文古籍全文检索时为了满足时效和准确性需求，采用了对藏文古籍文字图像进行二级匹配的策略，即先进行特征级粗匹配，后进行像素级精匹配。在采用原PSO算法的实践中，本项目发现原算法对于藏文古籍文字图像的匹配具有计算量仍然过大、收敛性难于控制的缺陷，于是对PSO算法的核心——位置更新方程进行了分析和简化，把多阶随机差分方程简化为一阶随机差分方程，把多个参数减少到一个参数，在理论上使得算法收敛性分析和控制更为容易。实践证明，这种改进的、简化的PSO算法不仅减少了藏文古籍文字图像匹配的计算量，而且提高了匹配的准确性。该论文研究分析了位置更新方程中的历史最优位置对收敛性的影响。

5、《The convergence of particle swarm with unified and simplified formula for position updating》论文：在上一论文的基础上，进一步研究了对收敛性影响的参数设置问题。该论文和上一论文所呈现的算法不仅是本项目成功进行藏文古籍文字图像像素级精匹配以实现藏文古籍全文检索的重点，也能为后续的藏文古籍全信息检索奠定算法基础。

6、电脑软件成果（藏文古籍全文检索仿真验证系统）：该系统是以研究为目的而搭建的，具有算法验证、效果演示功能的软件系统。该系统基于惭补迟濒补产环境而研发，由如下两大类模块组成：一是图像处理通过模块类，包括图像数据读取、图像缩放、灰度图像转换、二值化等模块。该类模块主要基于本项目应用需求而选用尘补迟濒补产自带函数或现有开源库而完成。二是藏文典籍图像处理及全文检索专用模块类，包括粗畸形校正、细畸形校正、去边框、行分割、图像特征提取、特征级图像匹配、像素级图像匹配、检索结果显示等模块。这些模块所组成的软件系统，集成式地展示了藏文古籍全文检索技术中众算法之间的流程关系，而且其中部分算法具有创造性的改进。该系统不仅为项目的后续开展提供了深入验证的平台，而且，无论从单独算法改进上，还是从系统集成经验上，也为研究者们提供非常有益的参考。

（二）阶段性成果清单

序号成果名称作者成果形式（著作、论文等）出版社或刊物名出版或刊发时间字数（万字）转载、引用获奖等情况

1 敦煌吐蕃文<寺院施入疏>考释杨铭论文《西北民族论丛》 2018.2 2

2 “后藏乃宁寺志” 羊毛措论文西藏大学学报（人文社科版） 2018.2 0.6 CSSCI

3 苯教典籍文献概说阿旺嘉措报告 2018.3 2

4 Effect on convergence from different particle swarms with a unified and simplified formula for position updating 胡建论文 2017 9th International Conference on Intelligent Human-Machine Systems and Cybernetics 2017.7 0.3

（单词） EI、CPCI-S收录

5 The convergence of particle swarm with unified and simplified formula for position updating 胡建论文 2017 9th International Conference on Intelligent Human-Machine Systems and Cybernetics 2017.7 0.4

（单词） EI、CPCI-S收录

6 藏文古籍全文检索仿真验证系统项目组软件 2018.6 50万页藏文图像

叁、下一步研究计划

各课题根据总课题研究方案，现将下一步研究计划如下：

1、子课题“藏族民间苯教经书“莱坞四典四部广经”的分类整理及研究”计划于2017年7月-2019年10月期间课题组整理提供所有相关研究资料，包括调查所得文献资料、田野调查访谈问卷、各类录音录像资料。课题组分类整理，编辑成册。同时，课题组调查成果情况，总结经验，针对不足，即行补充调查； 2020年初补充和完善研究成果，已完成课题基本工作； 2020年底进行课题研究总结，并做准备课题结项。

2、子课题 “藏文文献全文数字化研究”一方面，进一步完善底层技术，包括：扩大全文检索技术的适应范围和检索效率，引入文献学检索信息。采取的技术方案为，充分验证和提升复杂背景（字迹褪色、背景污损、版面残缺、字符粘连和遮挡、字体多变等干扰）下算法的鲁棒性，并在元数据中增设文献学信息；另一方面，优化软件系统，包括：对数据库管理软件、著录软件进行适应性更新，使之为全文检索和文献学信息检索提供更优的底层效率支撑。采取的技术方案为，把已有的原生XML数据库更换为大型关系数据库，并对著录软件适时增加文献学信息内容。此外，扩大藏文典籍图像扫描、整理和数据著录规模，充实藏文文献全文数据库，力争结题时达到200万页规模。此项基本为人力密集型事务，增设人力即可。

3、子课题“新疆、青海出土古藏文简牍的整理与数字化研究”计划于2019年初完成本书上编《新疆、青海出土古藏文简牍叙录》余下的约十万字的工作；2020年初完成本书下编《古藏文简牍研究与数字化文献汇编》的收集与整理工作； 2020年底完成附录部分的编写工作，包括《引用和参考文献》《古藏文简牍出土号、索引号和本书题名、页码号对照表》《藏汉对照译名对照表》等，并做准备课题结项。

4、子课题“佛教系属藏文写本文献整理与全文数字化研究”计划于2018-2020年基本完成馆藏藏文古籍文献目录整理编辑工作和馆藏藏传木刻版画资料的研究工作；2020年底争取编辑完成《馆藏藏传木刻版画集》，并做准备课题结项。

（课题组供稿）&苍产蝉辫;&苍产蝉辫;

(责编：孙爽、闫妍)

伊春园2023入口直达大象