手机版
1 2 3 4
首页 > 新闻中心 > 行业新闻 >
行业新闻

语料库是语言知识的可靠来源

发布时间:2017-09-29 14:15  点击:

首先祝贺第三届汉语中介语口语语料库国际会议在北京召开。汉语中介语口语语料库是获取语言知识,发现语言偏误,提高语言习得水平的重要手段。  我是一个自然语言处理的研究者,早在1957年,我就对于语言研究的发生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身机器翻译研究,实现自己的科学梦想。1979年-1981年我在法国格勒诺布尔理科医科大学留学时,曾经研制过一个把汉语自动地翻译为法语、英语、日语、俄语和德语5种外语的机器翻译系统,叫做FAJRA系统,提出了多叉多标记树形图模型(multiple-branched and multiple-labeled tree model, MMT),这是一个基于短语的机器翻译模型(phrase-based machine translation, PBMT)。
当时我采用的方法,是基于语言规则的理性主义方法。我用了3年时间,编写了汉语分析规则5000条左右,法语、英语、日语、俄语和德语的转换规则和生成规则各3000条左右,一共20000多条规则,此外,我还编制了若干部机器可读的、代码化的机器翻译词典,由于工作量大,我每天工作时间都超过10小时,扎扎实实苦干了3年,于1981年11月在IBM 4341大型计算机上输出了法语、英语、日语、俄语和德语等5种语言的机器翻译译文。这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。  这个系统研制成功之后,在有限规模的语言范围内,翻译的正确率还比较高,而当扩大语言范围时,对于任意的汉语句子,翻译的正确率只能达到70%左右,这样的机器翻译系统显然是难以实用的。我在1982年回国之后,又相继研制了法汉、英汉、日汉和德汉机器翻译系统,翻译正确率都没有超过70%。  我耗费了如此巨大的精力,却得到了很不理想的结果,在严峻的考验面前,我在少年时代的机器翻译梦想遭到了挫败。我没有得到多少成功的经验,却留下了大量失败的教训。我为此感到困惑,有一种难言的失落感。  正当我愁眉不展之际,1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法。这种建立在大规模(large-scale)真实文本(authentic text)处理基础上的机器翻译,是机器翻译研究史上的一场革命,它会把自然语言的计算机处理推向一个崭新的阶段。  把语料库方法引入到机器翻译中,改变了机器翻译翻译研究者获取知识的手段,由于语料库是大规模的真实文本,人们就可以得到更加完善的统计性的语言知识,因此,也就大大地提高了机器翻译的质量,加快了机器翻译系统的研制周期。  语言知识究竟在哪里?语言知识固然存在于语法书里,存在于各种类型的词典里,存在于汗牛充栋的语言学论文里,但是,更加全面的、更加客观的语言知识应当存在于大规模的真实文本语料库里,语料库是语言知识最可靠的来源。  语料库改变了机器翻译的命运,基于短语的机器翻译发展成为统计机器翻译( statistical machine translation,SMT),机器翻译走向了商品化和实用化的新阶段。  随着互联网的迅速发展,我们进入了大数据时代。数据挖掘成为计算机科学的一个重要研究领域,数据挖掘中采用的机器自动学习的方法,对于统计机器翻译具有重要的价值。  机器自动学习的方法主要有三种类型:有指导的学习、无指导的学习、半指导的学习。  有指导的学习实际上是对于数据进行分类,首先使用事先定义好的类别或范畴标记对于数据的实例进行标注,作为训练数据,机器根据这些标注好的训练数据进行自动学习,再根据学习得到的知识对于新的数据进行分类。由于用来学习的训练数据是用事先定义好的标记进行过标注的,机器学习的过程是在这些训练数据的指导下进行的,所以叫做有指导的学习。  在无指导的学习中,用来学习的数据没有使用事先定义好的类别或范畴标记进行过标注,要使用机器学习的算法来自动地发现隐藏在数据中的特征、结构或规律。这种无指导学习的一个关键技术是聚类,聚类技术根据数据实例的相同点或相异点,自动地把它们聚类为不同的组合。  有指导的学习要求事先人工标注大量的数据实例,需要付出巨大的人工的劳动量,费力而又费时,为了减少人工标注的劳动量,可以同时从标注过的数据实例和没有标注过的数据实例中进行学习,标注过的数据实例的集合可以比较小,而没有标注过的数据实例的集合可以很大,这样的模型叫做半指导的学习。  机器自动学习的这些方法已经成熟,而且广泛地应用于统计机器翻译的研究中,这就从根本上改变了传统的获取语言知识的手段,从大规模的双语对齐语料库中,通过机器自动学习的方法,去获取语言的翻译信息,对于机器翻译的发展具有革命性的意义。  目前,基于多层神经网络的、以大数据作为输入的深度学习(deep learning)方法引入到机器翻译中。这是一种新型的机器自动学习。深度学习的训练方式是无监督的特征学习,使用多层神经网络的方法。这种多层神经网络是非线性的,可以重复利用中间层的计算单元,减少参数,计算机从海量的大数据中可以自动地产生模型的特征和算法。  词向量是多层神经网络的一种重要方法,词向量把单词映射为一个固定维度的向量,不同的词向量构成词向量语义空间,在这个词向量语义空间中,语义相似的单词距离较近。  深度学习研究者米克罗夫(Tomas Mikolov)发现,如果用“意大利”这个单词的属性向量来减去“罗马”这个单词的属性向量,再加上“巴黎”这个单词的属性向量,我们就能得到“法国”这个单词或者相近的属性向量。类似地,如果用“国王”的属性向量减去“男人”的属性向量,再加上“女人”的属性向量,就能得到“王后”的属性向量。这非常令人振奋的结果,因为米克罗夫事先并没有刻意地做这样的安排。  2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,统计机器翻译又进一步发展成了神经机器翻译(neural machine translation, NMT),口语神经机器翻译正确率已经超过了 90%,针对日常口语的神经机器翻译基本上已经可以付诸实用了。
但是,在这种神经机器翻译中,语言之间的翻译细节还是一个黑箱(black box),尽管翻译的结果不错,我们对于其中的语言处理机制仍然是不清楚的,在语言学理论上,我们还难以做出科学的解释。  最近,深度学习向神经网络中融入了记忆机制,把基于理性主义的知识驱动与基于经验主义的数据驱动结合起来,架起了符号主义与联接主义之间的桥梁。这应当是今后神经机器翻译发展的新方向。  可以看出,由于在机器翻译中引入了语料库技术,已经获得了巨大的进步,这是令人可喜的。不论是书面语文本语料库还是口语语料库,都是机器翻译得以发展进步的关键性因素。语料库对于机器翻译的发展具有举足轻重的作用。  目前,汉语中介语语料库建设已经取得了很大的成绩。北京语言大学、南京师范大学、鲁东大学、暨南大学、中山大学、上海交通大学、厦门大学、台湾师范大学先后建立了不同规模的汉语中介语语料库。香港中文大学、新疆医科大学还建立了汉语口语习得语料库。  在这些中介语语料库的基础上,研究者们进行了卓有成效的研究,成果斐然。第三届汉语中介语口语语料库国际会议为交流这些成果提供了一个很好的交流机会,我衷心祝贺这次国际会议成功。

世联翻译-让世界自由沟通!专业的全球语言翻译供应商,上海翻译公司专业品牌。丝路沿线56种语言一站式翻译与技术解决方案,专业英语翻译日语翻译等文档翻译、同传口译、视频翻译、出国外派服务,加速您的全球交付。 世联翻译公司在北京、上海、深圳等国际交往城市设有翻译基地,业务覆盖全国城市。每天有近百万字节的信息和贸易通过世联走向全球!积累了大量政商用户数据,翻译人才库数据,多语种语料库大数据。世联品牌和服务品质已得到政务防务和国际组织、跨国公司和大中型企业等近万用户的认可。
  • “贵司提交的稿件专业词汇用词准确,语言表达流畅,排版规范, 且服务态度好。在贵司的帮助下,我司的编制周期得以缩短,稿件语言的表达质量得到很大提升”

    华东建筑设计研究总院

  • “我单位是一家总部位于丹麦的高科技企业,和世联翻译第一次接触,心中仍有着一定的犹豫,贵司专业的译员与高水准的服务,得到了国外合作伙伴的认可!”

    世万保制动器(上海)有限公司

  • “我公司是一家荷兰驻华分公司,主要致力于行为学研究软件、仪器和集成系统的开发和销售工作,所需翻译的英文说明书专业性强,翻译难度较大,贵司总能提供优质的服务。”

    诺达思(北京)信息技术有限责任公司

  • “为我司在东南亚地区的业务开拓提供小语种翻译服务中,翻译稿件格式美观整洁,能最大程度的还原原文的样式,同时翻译质量和速度也得到我司的肯定和好评!”

    上海大众

  • “在此之前,我们公司和其他翻译公司有过合作,但是翻译质量实在不敢恭维,所以当我认识刘颖洁以后,对她的专业性和贵公司翻译的质量非常满意,随即签署了长期合作合同。”

    银泰资源股份有限公司

  • “我行自2017年与世联翻译合作,合作过程中十分愉快。特别感谢Jasmine Liu, 态度热情亲切,有耐心,对我行提出的要求落实到位,体现了非常高的专业性。”

    南洋商业银行

  • “与我公司对接的世联翻译客服经理,可以及时对我们的要求进行反馈,也会尽量满足我们临时紧急的文件翻译要求。热情周到的服务给我们留下深刻印象!”

    黑龙江飞鹤乳业有限公司

  • “翻译金融行业文件各式各样版式复杂,试译多家翻译公司,后经过比价、比服务、比质量等流程下来,最终敲定了世联翻译。非常感谢你们提供的优质服务。”

    国金证券股份有限公司

  • “我司所需翻译的资料专业性强,涉及面广,翻译难度大,贵司总能提供优质的服务。在一次业主单位对完工资料质量的抽查中,我司因为俄文翻译质量过关而受到了好评。”

    中辰汇通科技有限责任公司

  • “我司在2014年与贵公司建立合作关系,贵公司的翻译服务质量高、速度快、态度好,赢得了我司各部门的一致好评。贵司经理工作认真踏实,特此致以诚挚的感谢!”

    新华联国际置地(马来西亚)有限公司

  • “我们需要的翻译人员,不论是笔译还是口译,都需要具有很强的专业性,贵公司的德文翻译稿件和现场的同声传译都得到了我公司和合作伙伴的充分肯定。”

    西马远东医疗投资管理有限公司

  • “在这5年中,世联翻译公司人员对工作的认真、负责、热情、周到深深的打动了我。不仅译件质量好,交稿时间及时,还能在我司资金周转紧张时给予体谅。”

    华润万东医疗装备股份有限公司

  • “我公司与世联翻译一直保持着长期合作关系,这家公司报价合理,质量可靠,效率又高。他们翻译的译文发到国外公司,对方也很认可。”

    北京世博达科技发展有限公司

  • “贵公司翻译的译文质量很高,语言表达流畅、排版格式规范、专业术语翻译到位、翻译的速度非常快、后期服务热情。我司翻译了大量的专业文件,经过长久合作,名副其实,值得信赖。”

    北京塞特雷特科技有限公司

  • “针对我们农业科研论文写作要求,尽量寻找专业对口的专家为我提供翻译服务,最后又按照学术期刊的要求,提供润色原稿和相关的证明文件。非常感谢世联翻译公司!”

    中国农科院

  • “世联的客服经理态度热情亲切,对我们提出的要求都落实到位,回答我们的问题也非常有耐心。译员十分专业,工作尽职尽责,获得与其共事的公司总部同事们的一致高度认可。”

    格莱姆公司

  • “我公司与马来西亚政府有相关业务往来,急需翻译项目报备材料。在经过对各个翻译公司的服务水平和质量的权衡下,我们选择了世联翻译公司。翻译很成功,公司领导非常满意。”

    北京韬盛科技发展有限公司

  • “客服经理能一贯热情负责的完成每一次翻译工作的组织及沟通。为客户与译员之间搭起顺畅的沟通桥梁。能协助我方建立专业词库,并向译员准确传达落实,准确及高效的完成统一风格。”

    HEURTEY PETROCHEM法国赫锑石化

  • “贵公司与我社对翻译项目进行了几次详细的会谈,期间公司负责人和廖小姐还亲自来我社拜访,对待工作热情,专业度高,我们双方达成了很好的共识。对贵公司的服务给予好评!”

    东华大学出版社

  • “非常感谢世联翻译!我们对此次缅甸语访谈翻译项目非常满意,世联在充分了解我司项目的翻译意图情况下,即高效又保质地完成了译文。”

    上海奥美广告有限公司

  • “在合作过程中,世联翻译保质、保量、及时的完成我们交给的翻译工作。客户经理工作积极,服务热情、周到,能全面的了解客户的需求,在此表示特别的感谢。”

    北京中唐电工程咨询有限公司

  • “我们通过图书翻译项目与你们相识乃至建立友谊,你们报价合理、服务细致、翻译质量可靠。请允许我们借此机会向你们表示衷心的感谢!”

    山东教育出版社

  • “很满意世联的翻译质量,交稿准时,中英互译都比较好,措辞和句式结构都比较地道,译文忠实于原文。TNC是一家国际环保组织,发给我们美国总部的同事后,他们反应也不错。”

    TNC大自然保护协会

  • “原英国首相布莱尔来访,需要非常专业的同声传译服务,因是第一次接触,心中仍有着一定的犹豫,但是贵司专业的译员与高水准的服务,给我们留下了非常深刻的印象。”

    北京师范大学壹基金公益研究院

  • “在与世联翻译合作期间,世联秉承着“上善若水、厚德载物”的文化理念,以上乘的品质和质量,信守对客户的承诺,出色地完成了我公司交予的翻译工作。”

    国科创新(北京)信息咨询中心

  • “由于项目要求时间相当紧凑,所以世联在保证质量的前提下,尽力按照时间完成任务。使我们在世博会俄罗斯馆日活动中准备充足,并受到一致好评。”

    北京华国之窗咨询有限公司

  • “贵公司针对客户需要,挑选优秀的译员承接项目,翻译过程客户随时查看中途稿,并且与客户沟通术语方面的知识,能够更准确的了解到客户的需求,确保稿件高质量。”

    日工建机(北京)国际进出口有限公司

18017395793

18017853893
一键添加微信

立即咨询