专利文献检索工具(system)能够自动翻译专利文献的翻译系统。
专利文献翻译的特点
与普通文本的翻译相比,专利文献的翻译具有以下特点:
●涉及专业领域多。专利文献具有很强的领域特性,直接使用现有的通用翻译软件很难得到理想的翻译结果。但是专利文献的领域可以按照国际专利分类号来划分,比较清晰。同时,经过多年的积累,相对容易获得特定领域的双语平行语料库,方便机器翻译的语料收集和领域划分。
●使用了许多技术术语和法律术语。专利文献包含大量的技术术语和法律术语,对译者的综合素质要求很高。相应的,专利翻译的报酬也很高。例如,在国外将一种母语翻译成外语所支付的翻译费约为每100源词30 ~ 50美元。对于一些稀有语言,翻译服务的价格会更高。因此,利用自动翻译或辅助翻译来解决技术术语和法律术语的翻译问题,可以大大降低专利翻译的成本。
●翻译的语言很多。由于专利文献具有一定的民族特色,专利文献往往需要在不同语言之间进行翻译。如果每个语言翻译方向都建立一个翻译系统,那就需要很大的开发成本。因此,使用与语言无关的翻译技术是一种合理的选择。
●文件形式规范,语言严谨。专利文献具有法律文献的某些特征,因此与新闻或口头翻译相比,文字的格式相对固定,语言相对规范。专利文献中往往包含一些固定的句式,俗称“句集”,如“本发明的目的是X”、“权利要求N中所述的X以Y为特征”,其中X和Y可以是任意的词语或句子,N是任意的数字组合。这些句型模板适合机器自动翻译。
通过分析专利文献的上述特点,可以看出,对于形式规范、领域明确的专利翻译,使用机器翻译方法是有可能达到更好的翻译效果的。特别是最近快速发展的统计机器翻译技术,具有语言独立性好、领域可移植性好、知识获取方便、开发周期短等特点,非常适合构建专利文献翻译系统。
中科院计算所多语种交互技术实验室具有多年的机器翻译研究经验,近年来在统计机器翻译研究方面取得了良好的成绩。北京东方灵盾科技有限公司对专利文献翻译的需求很大,希望借助自动翻译软件进一步提高翻译质量和效率。受东方凌盾科技有限公司的委托,计算研究人员利用多语种交互实验室积累的统计机器翻译技术,结合专利文献翻译的特点,设计并实现了一个特定领域的中英专利文献翻译系统。目前,该系统的翻译领域是中医药专利文献。由于采用了统计机器翻译技术,该系统可以很容易地移植到其他技术领域的专利翻译中。
系统总体设计
为了满足大规模、多用户、并发任务的需求,本系统采用服务器/客户端网络服务模式,采用多线程调度。系统的物理结构和逻辑流程如下:
1.物理结构
汉英专利文献机器翻译系统的物理结构由两部分组成,包括:
●翻译引擎服务器:负责提供翻译服务,管理翻译资源。
●客户端:负责向用户呈现翻译结果,提供辅助翻译工具,向服务器提交用户请求。
其中,服务器主要存放翻译核心解码器及其所需的各类资源,如短语列表、语言模型、模板库、词典、记忆库等。服务器统一管理这些资源,合理调度。同时,服务器负责每个用户线程的调度和时间片分配,协调每个用户提交任务的优先级。
客户端分为普通用户客户端和管理员用户客户端,不同的用户有不同的权限。客户端为用户提供了方便的编辑和修改界面,同时为用户提供了查看任务状态和服务器状态的功能,可以实时访问和修改服务器上的一些资源。通过客户端,用户可以方便地批量上传文件进行翻译,并可以修改返回的结果,重新提交翻译,批量导出翻译结果。
服务器和客户端都是可以独立运行的进程,它们通过网络相互连接。
2.逻辑流程
系统的逻辑结构是系统的整体业务框架,描述了从数据输入,通过系统内部处理得到的预期结果,到最终输出的全过程(本系统的逻辑流程参考图见图1)。
具体来说,系统的主要流程描述如下:
●翻译服务:负责翻译用户提交的句子或文本文件,输出翻译结果。翻译过程中会调用内存管理程序、词典管理程序、模板库管理程序,访问统计翻译模型库。
●内存管理:负责组织和管理内存,并执行查询、添加、修改、删除和导出翻译示例等操作。当用户或翻译人员提交内存操作请求时,内存管理模块访问内存,执行相应的操作并反馈结果。
●词典管理:负责组织管理系统中的所有词典,并进行词典查询、添加、删除、批量导入导出等操作。当用户或翻译人员提交词典操作请求时,词典管理模块访问系统词典库,执行相应的操作并反馈结果。
●模板库管理:负责组织和管理模板库,进行模板的查询、添加、修改、删除、导入、导出等操作。当用户或翻译人员提交模板操作请求时,模板管理模块访问模板库,执行相应的操作并反馈结果。
●用户管理:负责接收和执行用户的添加、删除、设置权限等操作。
系统中使用的主要翻译技术
该系统主要基于统计翻译技术,该技术结合了基于模板和基于记忆的翻译方法。
1.基于统计的翻译
统计机器翻译技术是目前国际上领先的机器翻译技术,它克服了传统的基于规则的翻译方法的主要缺点。在传统的基于规则的机器翻译方法中,翻译知识主要体现在词典和规则中,词典和规则主要由人类专家编写。这种方法的主要问题是:人类专家编写语言知识需要耗费大量的人力、物力和时间;用书面知识很难涵盖现实翻译环境中的各种问题。书面语言知识在面对冲突时没有很好的解决方案;书面语言知识不便于移植到不同的语言和领域。在统计机器翻译中,所有的翻译知识都来自真实的平行语料库,通过统计建模自动学习平行语料库中的翻译知识,从而克服了人类专家在汇编知识时面临的主要问题。综上所述,统计机器翻译有以下优点:
(1)很容易移植到不同的知识领域。只要获得新领域的双语平行语料库,就可以快速构建适合该领域的翻译系统。专利有规范的领域划分体系,很容易获得不同领域的专利翻译文本,所以统计机器翻译的这一特性特别适合专利翻译系统。
(2)易于移植到不同的语言。统计机器翻译具有最大的语言独立性,只需很少的语言处理就可以构建新语言对的翻译系统。这大大降低了需要翻译成多种语言的专利的系统开发成本。
(3)不需要手动编写规则。所有翻译知识均从双语平行语料库中自动获取,大大减少了系统开发所需的人力、物力和时间。统计翻译系统是基于统计模型的,它也有合理的解决方案来克服知识的冲突。
(4)系统的翻译质量可以随着训练数据的增加而逐渐提高。随着专利翻译系统的使用,可以产生越来越多的双语平行语料库,在使用过程中可以进一步提高系统的翻译性能,提高翻译质量。
在系统实现中,研究人员采用了基于短语的统计机器翻译模型。该模型以短语为基本翻译单位,从双语语料库中自动获取所有短语翻译,同时获取短语之间的翻译概率,即翻译模型。此外,我们还在训练阶段获得了目标语言模型。在翻译过程中,翻译模块根据训练好的翻译模型和语言模型,通过一定的解码算法,选择最可能的候选短语翻译组合作为整句的翻译结果。
2.基于模板的翻译
基于模板的方法便于系统翻译模式相似的句子。特定领域的专利文献往往包含一些固定的句型。例如,以下是中医药领域的几项专利的标题:
一种治疗风湿性心脏病的中药
一种治疗骨质增生的药袋
一种具有安神作用的无糖中药组合物及其制备方法
一种具有减肥作用的糊状保健食品及其制备方法。
可以看出,这几个标题在句式上有很大的相似性,可以用“治疗X的A Y”和“具有X功能的A Y及其制备方法”两个模板来概括。在翻译系统中,一个完整的翻译模板包括“模板的源语言部分”和“模板的目标语言部分”,每个部分又分为“模板的恒定部分”和“模板的可变部分”。例如,上述两个模板在该翻译系统中表示如下:
##2{…}用于治疗##1{…}
= = & gt一##2为治疗##1
具有##1{…}功能的##2{…}及其制备方法
= = & gt一种具有#1效果的#2及其制备方法
其中“##N”是模板的变量部分,“N”用于区分目标语言中不同变量的对应关系。在变量后面的“{…}”中,允许添加一些约束条件来限制变量的匹配,比如匹配字符串的长度、匹配方式(在子句开头匹配还是在子句结尾匹配)、变量中必须包含或者不得包含的单词等,以增加模板的表达能力。这里的模板可以匹配整个句子和分句。
在模板匹配之后,上面的例子被翻译成下面的形式:
一种治疗风湿性心脏病的中药
一种治疗骨质增生的药袋
一种具有安神作用的无糖中药组合物及其制备方法
一种具有减肥作用的糊状保健食品及其制备方法
可以看出,通过句型模板匹配,不仅可以很好地翻译一些固定的句型,还可以实现一些长距离的句子排序,弥补了基于短语的统计翻译方法在长距离排序上的不足。其次,模板匹配后,模板中的一些常量已经被正确翻译,统计翻译解码器只需要翻译剩下的短语片段,可以在一定程度上减轻统计解码器的负担。
该系统定义的句型模板直观,易于语言工作者理解。用户可以根据待翻译文本的句型特点添加翻译模板,大大增加了系统的灵活性。
3.基于记忆的翻译
在使用系统的过程中,用户可以批量将翻译正确的句子添加到内存中。在翻译过程中,如果内存中存在相同的句子,系统可以快速搜索其正确的翻译。当记忆库积累到一定规模时,可以加入到训练语料中,进一步提高系统的自动翻译质量。
此外,翻译系统还允许用户根据需要添加领域翻译词典和用户翻译词典,增强了用户对系统的掌控能力。
图2以中文文本的翻译为例,给出了系统的主要翻译流程。由此,读者可以看出上述翻译技巧在整个翻译过程中的作用和地位。对于一个输入的中文文本,首先通过内存管理模块搜索翻译记忆,如果翻译结果已经存在,则直接返回;否则,系统调用分词工具进行中文分词,并对分词结果进行后处理,然后调用模板匹配模块对文本进行模板匹配,最后进行基于统计的翻译。统计翻译需要调用统计翻译模型库,即翻译模型和语言模型。
系统的主要功能和性能
用户可以通过系统提供的用户界面轻松打开修改后的文件,并动态添加翻译术语和翻译模板来指导翻译结果。同时,他们可以即时在词典中查找正在修改的生僻字,并将修改后的正确结果批量添加到内存中。在修改的同时,用户仍然可以批量向服务器提交翻译任务进行排队,任务翻译完成后会提示下载翻译结果文件。系统的设计充分考虑了多用户多任务的并发执行,批量翻译任务在服务器后台处理,不影响客户端其他非翻译任务的执行。
1.翻译质量
该系统采用东方灵盾科技有限公司提供的中医领域8万对句子(平均句子长度为31字)进行训练。翻译质量的评估采用国际通用的评估指标Bleu和通用的评估工具MTeval-V11b.pl..在训练语料外200句的测试集上,当只有一个标准参考答案句时,系统自动翻译的Bleu值为0.3020。
这里和国际上最新的机器翻译水平做一个对比:在2006年国际知名的NIST机器翻译汉英翻译大规模数据集评测中,NIST子集(每句有四个参考答案)的最好成绩是0.3393,Gale Gale子集(每句有1个参考答案)的最好成绩是0.1470。NIST机器翻译评测使用的训练数据和测试数据均来自新闻领域,其训练数据的规模远大于本次专利翻译系统使用的数据。虽然两者没有直接的可比性,但可以看出,该系统在专利领域的翻译水平已经达到甚至超过了世界上最好的新闻领域仅用少量训练语料的翻译水平。
2.翻译速度
翻译的速度是以每小时翻译多少单词来衡量的。目前该系统的翻译速度为654.38+0.4万字/小时。平均每个专利标题20个单词,每个专利摘要200个单词,系统工作12小时后可以自动翻译84000个标题或8400篇摘要。这样的翻译速度完全可以满足日常辅助翻译工作的需要。
综上所述,该系统采用国际领先的统计翻译技术,结合基于模板和基于记忆的翻译方法,实现了一个实用的汉英专利文献翻译系统。该系统不仅可以实现自动翻译功能,还可以提供方便的辅助翻译功能。用户可以修改自动翻译的结果,动态添加词典和模板指导翻译,并批量将纠正后的结果添加到内存中。目前,该系统已进入试用阶段,翻译质量和速度已满足用户的基本需求。
(作者傅雷、、何、为中国科学院计算技术研究所研究生)