作者系伊春园2023入口直达大象项目“典籍英译国外读者网上评论观点挖掘研究”负责人、大连外国语大学教授
典籍英译是中国文化“走出去”的重要途径,读者评论是译本被接受的最终标准。当前典籍英译读者观点挖掘的研究趋势为:在读者接受理论指导下,引入自然语言处理技术和文本挖掘技术,扩大读者观点研究的视野,通过互联网环境获取大规模评论语料,对评论观点进行自动挖掘和定量分析,梳理读者评论关注的重点主题,以便系统深入发现有价值的观点信息,为掌握读者评论提供准确可靠的数据分析。而综合运用自然语言处理技术、机器学习方法和语义分析的跨学科研究,是典籍英译观点挖掘的有效途径,具体实施路径如下。
第一,构建典籍英译评论语料库,扩大读者观点研究视野。以美国和英国读者的评论文本为主要研究对象,通过础尘补锄辞苍海外网站础笔滨接口收集评论语料,目前尚无典籍英译图书评论的标准实验语料,运用自然语言处理技术进行去停用词和噪声数据、词性标注等预处理,在上下文环境中进行句子的句法分析、指代消解和省略恢复,建立典籍英译评论语料库。
第二,抽取典籍英译评论主题词表和修饰语,梳理读者评论的重点。针对网络评论文本篇幅短小、特征稀疏等特点,通过依存句法分析和语义分析等技术提取主题词和观点词的搭配关系,探究主题词和修饰语的固定搭配组合模式,分析评论文本中隐含的评论主题,识别评论语料的文本模式,自动抽取评论中的显性主题词,如译本的文体、结构、语言风格等,探究评论语料中未直接描述但可以通过语义推理得出的隐性主题词。
语义分析和领域知识表示是提高网络评论观点挖掘精准程度的关键。语义分析的基础是词汇表示,在情感词汇极性分类任务中采用词向量表示、前馈神经网络和卷积神经网络等深度学习算法,有效提高了情感词汇极性分析、语义分析等任务的准确率。
引入领域知识库分析上下文语境能够理解读者真正要表达的情感,完善领域知识库的基本任务是知识图谱补全,现有知识图谱补全算法耗时长、准确率有限,跨学科深度学习算法是解决这一问题的有效研究途径。
第叁,判别观点情感极性,建立典籍英译评论观点摘要。评论情感极性判别是探究潜在观点态度的关键步骤。从机器学习的角度看,情感极性识别可以看作多类别、单标签文本分类任务。机器学习分类算法结合情感词典,能够有效标注观点修饰语的情感极性,为定量研究典籍英译读者的正负面评论观点提供客观数据;结合聚类算法可以发现评论主题间的内在联系和客观规律;通过在语法层面进行句法分析和模式挖掘分析表达读者观点的修饰语,能够对评论观点主题摘要及情感极性进行精确分析;基于机器学习和情感词典形成观点主题摘要,探究蕴含网络评论中潜在的观点态度,能够帮助译者和出版社基于可信数据准确掌握读者对译本的正负面评论。
第四,深度挖掘评论语义主题,获取隐性读者观点。典籍英译评论观点挖掘既要从译本风格、用词遣句等微观层面考察,又要从全局把握观点主题的内在联系和重要性排序。网络评论噪声大、表达方式随意、语料规模大、观点稀疏分散。为梳理读者关注的重点,需要构建深度语义挖掘的观点主题模型,在语义层面揭示评论主题,将高维评论文本映射到低维主题空间,使其具有更好的可解释性,从多维度分析挖掘隐含的有价值主题,结合领域知识,对抽取出的主题词进行分类,绘制主题词共词聚类图谱,通过可视化的相似度映射技术和加权的模块参数化聚类算法呈现海外读者共同高度关注的主题类簇,结合知识网络节点中心度呈现各个类簇中的关键主题词,可以突破原有图书评论主题抽取囿于主观分析和小样本数据的局限,从冗杂的评论信息中抽取句子覆盖面更广、主题词汇多样性更丰富的隐性知识。
第五,文本可视化分析,系统分析读者评论观点。整合观点摘要中的显性观点和主题模型中的隐性观点,根据语义上的等同、等级和相关关系,对主题词进行合并、上下位或相关关系的描述和表示;将主题词按照重要性排序;汇总读者对哪些译者、译本的哪些主题词进行对比;基于主题聚类视角对目前广为接受的中国文化典籍译本读者评价进行对比研究,挖掘典籍英译作品畅销的深层次原因;分析主题词和修饰语情感极性的分布情况,了解国外读者对特定译者或译本所持有的具体态度,为译者和出版社进一步了解读者需求提供科学可靠的依据。可进一步采用统计上浮原理以主题词云方式显示典籍英译评论中频繁使用的主题词,并将汇总后的主题词按照重要性排序。分析观点主题之间的语义关系,对网络评论中的显式对比关系进行语义描述,计算话题簇之间的相似度,基于深层次的语言分析对评估观点进行语义聚类,系统分析读者评论观点。
第六,适应多语言跨领域环境,迎接国际化挑战。互联网的国际化特质决定了在多语言、跨领域上下文环境下研究典籍英译评论尤为重要,句法分析、情感极性判别等基本分析方法与语言环境问题领域高度相关,不同领域数据的情感特征并不完全相同,在某一领域数据中训练的情感预测模型,通常不能直接用于其他领域。随着用户评论数量和各种领域数量的持续增加,对所有领域单独训练模型需要消耗大量的时间和资源。
跨领域情感分类通过相关源领域的知识改进目标领域,具体实现通过相近领域迁移学习或者领域适配模型,例如用图书评论领域已标注评论得到的情感分类器,迁移或者适配到数字视频光盘领域,节省该领域评论的标注时间和资源。评论情感在不同领域通常存在特征漂移问题,在书籍领域常用“可读性强”“有思想”等表达积极情感,用“平淡”“无情节”等表示消极情感;而在数字视频光盘领域,通常用“清晰度高”“光滑”等表示积极情感,用“模糊”“有划痕”等表示消极情感。由于领域之间的差异,在源领域中训练的情感分类模型,在直接应用于目标领域时往往表现不佳。采用基于深度学习的方法,可以为跨领域环境下的情感特征漂移问题提供解决方案,需要解决的难点是如何处理语义丰富的评论短文本。
跨语言情感分析是利用源语言文本对目标语言文本进行情感倾向分析,具体实现可通过基于资源迁移和基于联合学习的方法。资源迁移方法由于语言语料标注体系各异而难以实施,基于联合学习方法主要依赖机器翻译,受翻译结果质量影响较大。近年,深度学习成为跨语言情感分析研究的热点,目前主要围绕粗粒度层面,跨语言细粒度情感分析需要进一步研究。