伊春园2023入口直达大象

旧版网站入口

站内搜索

11&补尘辫;窜顿189&苍产蝉辫;萧国政、姬东鸿::项目简报-第13期-2017

2017年12月14日10:58来源:

基于本体演化和事件结构的语义网模型研究

为国家网络语言文字信息管理献策建言:

设立网络语言与信息监管项目和基地,培养一支有语言研究能力和处理技术的忠于党、忠于国家、忠于人民的网防军

由武汉大学萧国政、姬东鸿为首席专家的国家哲学社会科学基金重大招标项目《基于本体演化和事件结构的语义网模型研究》(项目批准号:11&补尘辫;窜顿189)始终坚持学术探索、技术基础和应用导向,积极推进成果转化和使用,不断提高网络生活的质量和水平,为创立网络中国文化新面貌贡献力量。

近年来,在网络语言处理中,发现用非文字符号(含空白)代替汉字“敏感词”的现象甚多,特别是在文学作品中,给网络作品的发展、网络界面面貌和受众文化生活带来不必要和可以不发生的非正面影响(为什么不必要和可克服,见后),也给一些境内外敌对势力和对网络健康管理不理解的受众,提供了一些不必要的攻击理由和煽动话题。上个月,由子课题负责人吴鸿缈教授牵头,项目首席专家萧国政教授、姬东鸿教授等参与,通过武汉大学向上级有关部门呈送了一份对于文学网站小说文本敏感词管理办法的报告,提请领导和有关部门关注,提出了帮助国家用技术和相关策略,改善甚至克服该问题的智库建议。该智库性报告和建议,我们认为事关国家安全、社会发展、民情导向和我党威望,现特以简报形式向项目主管部门和领导再次报告,若认为有些合理和可能,也烦请转呈党和国家有关领导。

为了“净化”网络语言,我国当前对网络语言文字的管理,采用的是早期简单技术和粗放型策略。

该类技术,在处理敏感词时,采用的是直接屏蔽的方式。操作上,凡可能属于不妥或不雅的词或字段,皆收进“应删词表”,用星号或空格“替代”。这种处理,临时用用无妨,但长年累月,后果可以想到。这里,以各类文学网站中的小说文体敏感词屏蔽的为例,看看这种技术和处理策略的后果。被屏蔽的敏感词绝大多数为政治事件和两性关系事件。

从被删除替换后的网页看,两性关系类的“敏感词”主要有以下几类:①敏感性身体部位的名词。如“屁股”,“乳房”,“乳头”,“大腿”,“胴体”;②表示事件行为的动词或动名词。如“操”,“日”,“靠”,“性”,“丰胸”,“意淫”,“诱惑”,“嫖娼”,“抚摸”,“脱光”,“上床”,“性爱”;③与事件有关的其他名词。如“情欲”,“激情”,“欲望”,“暧昧”,“春梦”,“初夜”,“高潮”,“性幻想”,“性感”。

如“日”有一个方言义项同“操”,结果含有“日”的字段或词,“日”均被星号代替,如:抗 *、每*、*头、往 *、* 后、* 历、整*里、**夜夜、狗*的、*本人等;又如含“性”字的字段用星号替换后:人 *、* 命、耐 *、同 *、索 *、党 *、间歇*、革命*等。

这种用星号替换的现象又被称为“打码”,还被部分网民和写者戏称为“被和谐了”。为了避免被打码,写手们主要采用了以下六种手段进行应对,形成了汉字网络文本非规范书写的六种表达:(1)拆分原字,分字输入(胴体 → 月同体);(2)形近字代替(日本 → 曰本);(3)音近字代替(大陆→大6);(4)保留原字,中间添加分隔符(对付“词表删除技术”,如:亲热 → 亲!热),(5)部分拼音化(胸膛 → xiong膛),(6)空格(亲热→亲 热)。

直接屏蔽关键字的粗放式技术手段,不仅看不到语义技术的应用,也显得对文字作品和受众不够尊重。统计小说《弄潮》发现,“性”字被屏蔽340次,但仅有叁处与两性关系类事件有关;“日”字被屏蔽285次,无一处与两性关系类事件有关。一些成语和惯用语也变得让人啼笑皆非,如“*摆靠闭山吃山*水吃水、”“来*摆日闭方长”、“十有**摆八九闭”、“天下事不如意者十常**摆八九闭”。在政治敏感词方面,为避“国军”,“某国军队”变成“某**队”;“台独”被屏蔽后,如“某电视台独家播报”变成“某某电视**家播报”。

外事无小事,其实代表国家的语言行为更是涉及党和国家的形象,关乎人民特别是年轻一代文化思想修养,可以说是影响千秋万代的事,必须高度重视。语言无小事,网络(含手机)读物,事关党、国家、人民和民族现实安全和文化未来,不能简单从事,需认真研究,必须投入经费金额力量,进行有针对性的语义、技术、政策、策略及战略研究,彰显我们党对国家、对人民、对历史最具高度责任感的政治特色和光荣传统,同时提高我国语言学界、技术处理界的语言研究水平和技术处理水平。

为此,我们建议:在国家网络信息安全领导小组领导下,通过社会科学基金、自然科学基金、教育部等,可把相关的工作和任务,通过国家交叉学科项目招标方式招标,或将此类工作直接打包和分项委托给政治责任感强、语言和信息处理技术到位的重大项目组、学校、机关、学术团体和有关基地,与他们签订责任书,定期检查、考核,优胜劣汰,让他们在国家有关部门领导、管理和监护下,成为我党、我国网络空间的一支新型“网防”军。

如果国家和有关领导部门认为我们的建议可行,有需要有人先行先试,我们项目组是交叉学科团队,有上好的语言研究基础、网络技术基础和项目研究成果,我们项目组和项目组所在的“武汉大学湖北语言与智能信息处理重点研究基地”,项目负责人所主持的“中国语文现代化学会语言与智能信息研究会”,愿意参与先行先试,并保证在完成好现有重大项目研究的同时,为国家网络语言信息的安全监管工作和履行国家智库使命,做出我们应有的贡献。

在技术上,我们今天已可以做到精准剔除,最大程度地保护汉语的健康肌体。试举两例:一,从简单的“关键词删除法”往前走一小步,搜索该词前数字或/和后数字(或词),建一个辅助性的“反删除词表”,如“性”,凡遇“人性、性命、耐性、索性、党性、间歇性、革命性”(此表可根据出现的失误不断扩展),则取消删除;用此法来避免对成语、俗语的破坏。二,更复杂一点,以大数据为基础结合智能学习和深度学习,对敏感词进行精确过滤自动拦截,如收集与相关词语邻近的上下文词语,标出其频率进行排序,结合贝叶斯网络和隐马尔可夫模型,加上适当的针对性算法,便可精准判断“屁股”一词是否出现在带有色情意味的上下文中。尔后,根据需要可在此基础上,再一步步往前走。

(课题组供稿)

(责编:王瑶)