9月6日,传神公司殷白恩老师线上讲学,为学院2022级翻译专业新生带来了一场以人机共译在商用环境下的应用为主题的讲座。本次讲座通过腾讯会议举行,由银河殷燕教授主持。
讲座第一部分,殷白恩老师简短的介绍了机器翻译技术的发展历程、人机共译落地的过程和AI当前发展阶段。殷老师告诉大家只有了解机器发展历程、人机共译的六大步骤及当前AI发展的阶段和未来发展走向,我们才能更加清楚未来要做的具体的事情。
随着科学技术发展,特别是计算机的发展,机器翻译共分为基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。殷白恩老师指出,机器翻译还有很大的发展空间。其次,人机共译落地的过程主要有六大步骤,而目前AI技术发展处于能够代替人类学习、初步感知人类行为的阶段,比如学习的机器人小度、苹果的Siri。每一次AI发展都很艰难,需要海量数据的积累。
讲座第二部分,在确定同学们对机器翻译有了更加清楚的理解后,殷白恩老师开始详细介绍定向引擎及其结果评测这是机器翻译的基础和核心。定向引擎有专属的人工筛选的种子语料,这些语料是某些垂直领域的典型核心文本。谷歌引擎、百度引擎和有道等市面上的通用引擎和定向引擎的区别较大。通用引擎可以使用户快速获取基本信息和语义,而定向引擎更加准确,能够直接达到用户使用目的,尽量可以作为成果交给用户。殷白恩老师举了一个例子来方便大家理解,同样翻译100句话,通用引擎倾向于把100句话全部的大致意思译出,追求每句话都是70到80分,总体结果为80分,而定向引擎倾向于把100句话中30句完全译为100分。
讲座第三部分,殷白恩老师详细讲解了译前术语提取的四大步骤,分别为阅读原稿找到关键词汇、查证词汇原文的确切含义、初步拟定术语译文、术语译文查证。术语影响译文准确性,译者大都学语言,不能够理解各领域的关键术语,人工提取术语时,比如马达头,每个字全都认识,却不知道具体意思。同样对于机器翻译也较难。比如,兰州牛肉拉面,机器可能会识别为兰州、牛肉和拉面三个词。因此,需要提前定义术语,这使译文更加准确和译后工作更加高效,特别是在大规模协同工作场景下,保证最终译文质量。。人工术语提取缺点在于短时间内难以通读全文,效率低、容易遗漏且个体差异性极大。而比如,“夏天衣服能穿多少穿多少”和“冬天衣服能穿多少穿多少”,这两句机器翻译会有很大障碍。AI提取术语能够快速提取全篇关键词汇,统计词频并匹配历史术语库译文,减少重复劳动的同时,随着数据积累不断提升自动提取的精准度。
同学们在聆听讲座中秩序井然,表示出了对人机互译知识极大的学习兴趣。讲座结束后,同学们纷纷表示这次讲座受益匪浅,学到了关于机器翻译原理和过程,不仅对译者单独翻译以及机器翻译的局限有了深入了解,更是对人机互译发展的未来走向有了更加清晰的认识。同学们了解了很多以前没有接触到的翻译知识,希望能够经常听到这样的讲座。
专家简介:殷白恩,传神语联网网络科技股份有限公司知识资产部总监、语联网研究院人机共译首席研究员,多所高校的校外行业导师,主要负责公司知识资产建设、管理和运营工作,长期从事国际工程,多媒体、军工等行业翻译实践工作,编撰工程行业路桥隧道专业英中字典,撰写开源情报专题研究报告60余项,在核心期刊发表多篇学术论文。
(审稿:刘建伟)