翻译研究
寻找机器翻译痕迹—神经机器翻译文本的句法特征研究
沈梦菲 ,  黄伟    作者信息&出版信息
外语教学与研究   ·   2024年 56卷 第3期  
0(CNKI)
该文暂无导航

AI 摘要

1. 研究背景

深入探讨了机器翻译技术的发展背景及其与人工翻译的差异性。随着神经机器翻译技术的进步,翻译质量得到显著提升,但与人工翻译相比,仍存在可感知的“机器翻译痕迹”,主要体现在语言风格上的差异。研究表明,机器翻译文本在语言单位使用频率、词汇和形态丰富性上与人工翻译存在明显差异,导致译文连贯性、可读性及地道程度降低。此外,机器翻译文本的句法特征也受到关注,研究发现其句法复杂度与人工翻译存在差异。本研究旨在通过构建“人、机翻译依存树库”,利用句法计量指标对比分析两种译本的句法特征,以揭示“机器翻译痕迹”在句法层面的语言学表现。研究选取了百度和谷歌翻译作为代表,采用MDD和依存方向占比作为测量句法复杂度和语序分布的指标,探讨神经机器翻译文本与人工翻译文本在句法复杂度和语序分布方面的差异及其成因。这一研究对于深入理解神经机器翻译语言的句法特点、提高翻译质量评估和译后编辑具有重要意义。

2. 研究设计

详细描述了研究设计,包括语料来源、句法标注、计量指标和分析方法。研究选取了赫拉利的《人类简史:从动物到上帝》的三个译本:人工翻译、百度翻译和谷歌翻译,并将它们拆分成2,000词左右的样本进行段落对齐。采用依存语法理论框架进行句法标注,使用哈尔滨工业大学语言技术平台(LTP)创建了三个依存树库。研究基于依存树库,使用依存距离(DD)和依存方向占比来考察文本的句法复杂度和语序分布情况。依存距离是支配词与从属词之间的线性距离,句子的MDD(平均依存距离)可以反映句法复杂度和认知难度。依存方向分布可作为区分语序类型的指标。研究计算了文本整体以及不同句长、不同依存类型的MDD,以及支配词居后的依存关系占比,以对比人、机译本的差异。使用Python语言计算相关指标,用SPSS软件进行方差分析,以判定两种译本是否存在显著性差异。

3. 结果与讨论

通过计算平均依存距离(MDD)来考察人工和机器翻译文本的句法复杂度。研究发现,人工译本的MDD略低于两个机翻译本,且随着句子长度的增加,MDD在两种译本中均增大,但人工译本的增长速度逐渐变缓,而机翻译本的增长速度较快。此外,机器翻译系统在处理短句时能力较强,但在控制长句的句法复杂度方面存在不足。尽管如此,机翻译本的MDD基本在自然语言和人类短期记忆容量范围内,表明机器翻译系统可能学习到了自然语言使用中的记忆负担最小化倾向。

进一步分析发现,机翻译本中前置宾语、介宾关系和状中关系的MDD显著大于人工译本。特别是,机器翻译系统倾向于将英语被动句翻译成汉语“被”字句,导致前置宾语的MDD较大。此外,机翻译本中框式介宾关系和状中关系的使用频率及MDD均较大,使得句法结构相对更复杂。

在语序分布方面,人工译本和机翻译本的支配词居后依存关系占比接近目标语汉语的语序习惯,但机翻译本偏离原生汉语的程度更高。随着句长的增加,两种译本中支配词居后的依存关系占比逐渐降低,趋向于使用支配词居前的语序手段。人工翻译在处理短句时更倾向于使用认知难度较高的支配词居后的关系,显示出更强的动态调节句子整体难度的能力。

此外,人、机译本在依存关系和相关词类的使用频率上存在差异。与人工译本相比,机翻译本中动词、副词和状中关系的频率明显更低,而名词、代词、介词和介宾关系的频率显著更高。这表明,神经网络机翻译本更容易受源语使用规律影响,偏离目标语本身的特点和规律,导致译文不够地道、可读性较差。

4. 结语

本章节总结了研究使用依存距离和依存方向分析人工翻译与神经机器翻译英译汉译本的句法特征,揭示了机器翻译在长句句法复杂度控制、语序分布上的不足,以及与人工翻译和原生汉语在词类和句法手段使用上的差异。同时指出机器翻译技术快速发展,其特征可能随技术迭代而改变,建议未来研究考虑更多影响因素,以更全面地探索机器翻译文本特征,为改进翻译算法和提升翻译质量提供支持。

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。

展开

当前期刊

当前期刊
    目录

    推荐论文

    • 语言官能与外部世界的联结

    • ChatGPT翻译的词汇多样性和句法复杂度研究

    • 翻译语言特征新假设“折中假设”