2011年是伊春园2023入口直达大象重大招标课题“自然语言信息处理的逻辑语义学研究”(批准号:10窜顿073)启动研究的第一个年头,主要在研究资料的收集整理和研究思路的构想梳理方面做了大量工作。
今年课题组发表的高质量论文有三篇。课题组首席专家中国社科院的邹崇理研究员、合肥师范学院的李可胜副教授与张璐合作撰写的“The Categorial Logic of Vacuous Components in Natural Language”探讨了自然语言中的虚化问题。课题组成员北京师范大学琚凤魁博士与清华大学的刘奋荣教授合作发表的论文“Update semantics for imperatives with priorities”讨论了祈使句的语义问题。上述两篇英文论文发表在逻辑学专业期刊Logic, Rationality and Interaction 2011年刊上,已由国际著名数据库Springer收录。另外,课题组成员中国社科院的杜国平研究员在CSSCI收录的核心期刊《浙江社会科学》发表了对于条件句逻辑的论文《“即使p,也q”句式的逻辑分析》。
除了初步的研究成果,本年度课题组还积极与语言学界、计算机学界进行沟通交流,共组织包括开题会在内的课题小组研讨、专家面对面论坛五次。前后邀请到微软亚洲研究院前主任研究员、中国计算机自然语言处理领域的“趟路人”黄昌宁教授,我国计算机信息处理领域资深专家、教育部语言文字应用研究所冯志伟研究员,清华大学计算机系的周强教授,国际着名语言学家、台湾国立交通大学的林若望教授,介绍双方研究动向、听取计算机科学界和语言学领域的需求,共同就大家目前所关注的逻辑语义学问题展开了深入的探讨和交流。这些工作无疑有助于课题小组在原有研究设想的基础上,结合目前计算和语言两界的实际需求来厘清研究思路,为下一步研究的全面展开打下良好的基础。
经过这一年的探索和探讨,2012年课题的研究重点将放在“逻辑语义学的综合研究”上。从与计算机界及语言学界的交流中我们认识到,目前国内在面向自然语言的信息处理上所存在的问题是,计算机领域面向汉语等自然语言的处理以统计方法为主,真正针对自然语言特点设计的程序和算法还很难达到满意地处理一整套自然语言(这里指汉语)的能力。造成这一现象有句法和语义两方面原因。在句法上,很多现象,包括简单的和复杂的现象,如语词之间的依存关系、汉语中的连谓、兼语等现象的谓词论元关系,在语言学上还尚无定论,所以在信息处理过程中也难以给出确凿的刻画方案;在语义上,如何让计算机“听懂”、或者说“理解”人的语言,仍为目前计算语言学继续向前发展的瓶颈,迫切需要逻辑语义学提供一套、甚至几套形式化方案,不但能够刻画自然语言所具有的比较特殊的一些现象,(如右节点提升、代词回指等不连续现象),还能够构造出可以全面刻画现代汉语书面语的逻辑语义学的句法语义系统。幸运的是,在逻辑语义学诸理论中,最近二十多年发展起来的组合范畴语法颁颁骋是成功满足这一需求的语法系统,在西方学界已引起计算语言学家广泛关注。
本课题预期在2012年完成以下几个方面的任务:
1、与清华大学计算机系、微软亚洲研究院加强联系,深入了解清华树库到汉语颁颁骋库转换过程中所遇到的、转换结果中预留的语言学及逻辑形式刻画问题,提出解决方案。
2、基于课题组前期利用类型逻辑语法针对汉语照应省略现象提出的范畴逻辑系统尝尝颁奥?和针对汉语虚化成分给出的尝惭笔系统,给出颁颁骋框架下相应的组合规则及其添加模态下标的算子,并在此基础上构造混合的范畴逻辑多模态系统,证明混合系统的元逻辑性质。以此推广刻画汉语中更多的相似现象。
3、汉语特殊性的思考。尽管颁颁骋取得了丰硕的信息处理成果,对汉语颁颁骋树库的转换也有初步尝试,但尚无对汉语自身特点及其在颁颁骋下处理方案的思考。幸运的是,我们在已有探讨中可以找到与汉语在不同程度上的共性,如与英语相比,汉语在基本语序上也是主谓宾结构,但对主谓宾的顺序要求不如英语严格;与土耳其语相比,汉语也允许语词上的混序现象,但是混序的实际环境不同。我们将分别对比汉语与各种已讨论语言的共性与特性,为利用颁颁骋进行面向汉语的信息处理做好充分的准备。
(责编:秦华)
纪念清华简入藏暨清华大学出土文献研究与保护中心成立十周年国际学术研讨会举行