手机版
1 2 3 4
首页 > 新闻中心 > 行业新闻 >
行业新闻

大数据时代,语言服务行业将何去何从?

发布时间:2017-09-12 14:25  点击:

为使大数据生成的数字内容有效,需要针对不同渠道将其进行转换,以用于各种用途和其他市场的本地化。这是一个对于所有译员来说都充满机会的领域。
参加任何一个会议你都能发现常见的行业术语流行语多了一些不一样的东西——“大数据”。还会听到数字化数据大规模增长的消息、某领域知识库增长速度惊人、公司如何来管理和诠释来势汹汹的数据等。迅速增长的内容包括结构化数据库、应用程序代码、图像、视频文件和文本。可能还会听说机器学习和大数据如何使软件更灵敏、更能满足客户需求。
我们谈论的数据有多大?数字内容、代码和结构化数据已经非常庞大,但仍以惊人的速度24小时不停增长着。每一天,世界上就生成2.5兆字节的数据。这些数据来源很多,包括文件、社交媒体、电子采购交易记录和手机GPS信号。据估计,每日新增的数据将使全球信息资源库的信息从2015年的7.9泽字节(7.9×1021字节)增加到2025年的176泽字节。别忘了1泽字节等于1,000,000,000,000,000,000,000字节,这是一个令人费解的数字,并且这个总数还不包括每天交流的大量内容。
不论创建的内容是什么,其容量之大都给翻译和本地化带来巨大且未实现的潜能。这对语言行业来说意味着什么,对人工翻译和机器翻译又意味着什么?
何为大数据?其重要性何在?
我们谈论的大数据指的是获取大量数据和使用软件工具来识别以前未被发现的模式、趋势、相关性和关联的新方法。如果你在网上买了一本书,是因为在线零售商告诉你,与你有类似浏览历史的顾客都喜欢这本书,那么你就已经是大数据分析的受益者了。
过去几十年里,商业、政府和日常生活的数字化使这种做法成为可能。这些信息存储在巨大的数据库中,数据库中有结构化数据,以及大大小小的文档资料。我们每天用更多的数据来喂养这只正在不断成长的“野兽”。虽然所有机构都依赖数据来运行,但只有少量机构利用数据更好地理解其所在领域人们的行为、偏好和趋势,这种机构数量虽少,却呈现出增长态势。机构利用这些数据作出的分析,可以更好地决定如何推销产品、帮助客户、提高运营效率,或者作出其他伟大构想。
他们是怎么做的?使结构化数据和文本富有多样性并不不容易。对于高度结构化的数据,则使用专门处理大数据的软件从大型全网上数据库中提取。然后,分析师采用新一代的商业智能和文本分析工具,将这些原始数据转换成可用的信息和可操作的内容。他们可能会将交易数据与服务器日志,点击流数据,社交媒体内容、客户电子邮件文本,传感器数据和电话记录结合起来,再提取出数据分析。他们提取分析数据时,也使用高级分析工具,包括统计分析、数据和内容挖掘、预测分析和文本分析。传统的商业智能和现代数据可视化软件可帮助分析师以人类可读的形式呈现出他们的发现。
语言行业实际上是首个对大数据应用表现出兴趣的领域之一。早期的主流应用就有谷歌和微软推出的统计机器翻译(SMT)。2011年卡门森斯顾问公司(CSA)在一份机器翻译(MT)发展趋势报告中指出,这些基于统计的方法都是大数据在MT领域的应用,因为它们必须用到大量的双语数据。例如,它们会将英文源文件与人工翻译后的俄文文件进行比对。
简单来说,SMT可以通过将源文件中的零和一与译文中的相关信息进行对比,找出其中的相关性和翻译模式。换句话说,计算机强大的处理能力可将文件与其译文进行拆分,然后分析其中的翻译模式并预测未存储文本的译文。这种分析大大加快了语言支持的速度,而不是像从前MT那样要依靠语言专家团队来创建语法,把它们整理成翻译规则,创建双语词典,之后还要不断地在发现问题后作出修改以及添加规则。
2011年CSA在一份报告中预测专家在处理更多的语言种类和大量的多语言内容时,会使用这些基于数学的大数据算法来解决不同语言之间的沟通与营销问题,这已经成为事实。
过去几年里,基于大数据分析的MT使用频率早已超过了第一代基于规则的解决方案。Google翻译吸引了大量的用户,这证明其操作简单、易于领会,从某种程度上说,也是MT输出的质量得到提高的结果。尽管学术研究表明BLEU7(双语评估替代技术)等流行的质量评估系统已经有了提高,但这种提高并不是简单的累加,在不同语言和不同可译内容类型(例如常规文本、音频、视频和社交媒体)之间,翻译结果也会出现较大的差异。因此,能提升翻译质量的数据很少,除非用户对翻译质量没有很高的期待。
像Amazon Web Services和Microsoft这样基于云计算并能无限使用的算法能为这些大数据实践提供支持。随着数以亿计的设备(如传感器、嵌入式控制器、可穿戴设备、健康检查器以及尚未发明的小部件)接入互联网,这类获取和分析方式将会继续发展成为“物联网”。
为使大数据生成的数字内容有效,需要针对不同渠道,将其进行转换,以用于各种用途和其他市场的本地化。企业和政府规划人员早已了解到只用一种语言提供所有数字化信息是不够的。他们的任务是尽可能多地使用数据来支持重要人群的用户体验。否则就不可能吸引并留住国内外的多元文化受众。
只需考虑翻译的必要要求,使其在转换成另一种语言时能够面向更广泛的受众。据估计,要提供14种语言才能满足世界上90%经济活跃人口的需求,但大多数网站最多只支持六种语言或地区。许多公司的产品和文件本地化工作都很滞后。口译活动更是受到限制。
随着各机构产生的数据越来越多,人们也越来越渴望为更多受众提供产品和服务。近期CSA对于客户方面受访者的调查报告显示,他们计划在未来三年内将翻译量增加67%,从平均每年的5.9亿字增至9.9亿字。这种增长是语言行业现有方式无法满足的,并且在CSA调查样本中,买家希望能结合供应商后期编辑内容和原始MT来解决这种增长需求。
大数据在当代的应用,及其在未来的应用
各机构表示,要实现他们增加翻译量的计划,会耗尽所有现有译员和短期内会进入该领域的译员的精力。
为了满足日益增长的翻译需求,各机构纷纷采取措施提高译员和机器翻译的生产力,以解决翻译量和周转时间的挑战,以及多种目标语言处理和预算有限的问题。公司对人工翻译和后期编辑MT进行投资,以应用于重要的业务内容,如比较固定的产品和营销材料。例如,消费者要依靠大批数量不断增长的翻译提供商,使用机器翻译对源材料进行预处理,然后语言专家再对输出材料进行人工编辑。一小部分客户组织也将未经编辑的机器翻译输出材料直接用于商业领域,比如“常见问题”和“知识库”。
除了使用机器翻译一些有限的商务文本外,一些消费者也开始使用机器翻译处理一些用户生成的内容,例如过去一些机构不愿翻译的产品评估、酒店评论和论坛讨论等。但CSA的研究显示,线上消费者和商业买家都喜欢翻译用户评论,即使这些评论都已经翻译过了。
为何大数据的数量与翻译消费者和提供商有关
大数据代表了大量的数字,但翻译行业的数据对于大数据来说简直是冰山一角。我们只需看看书面单词以及它们与每天生成的2.5兆字节数据有什么关系就知道了。
尽管当今的目标是使人类更加具有生产力,以节约时间和金钱,但全球的在线内容远远无法适用于所有语言。从多年的研究和咨询中可知,是否投资翻译、本地化和口译的讨论都必须先审查可用的数据。
CSA决定调查本地化行业面临的众多挑战,从翻译内容的角度看,从所有可译数据中找出应该翻译什么。我们决定从某一天的数字内容输出开始,确定应该翻译什么,如果整个语言行业只处理这些内容并且没有积压的数据,那么到底应该翻译什么。
什么是数据?数据就是每天数字化所创建的一切,包括从文档到SQL数据,从遥测技术到数字多媒体技术。我们先将这个假设应用于外包服务的支出。据估计,多种形式的翻译——包括人工翻译、译后编辑、转录以及网站全球化和以文本为中心的本地化翻译在381亿美元的语言服务和技术市场中占264亿美元。
然后,我们算出单词每日花费的金额。我们将26.4亿美元平均分在365天里,估计翻译行业日值7200万美元。若假设每个字20美分,则预计专业译员每天处理近3.62亿个词。然后,我们将每个词转换成9.71个字符,即相当于七十亿字节的双字节字符。(请注意,某些语言较其他语言平均每个字的字符较少)。
最后,我们将其与日常创建的内容量进行比较。当我们将2.5兆字节除以语言服务提供商产生的目标语言内容的数量时,预计翻译公司每天只能处理全部创建内容的0.00000000009%。然而,我们可以保守估计,绝大多数的数据将永远不会被翻译——要么材料不可译,要么翻译此类材料没有意义。
但是今天有些没有翻译的东西(如用户评论和社交媒体帖子),随着企业努力提高客户体验,将来也会被翻译。即使排除那些极小比例的日常字节,外包内容的翻译量仍然远低于每天创建内容的1%。别忘了我们讨论的是仅仅一天内的翻译缺口。这并不包括尚未翻译的积压内容。
该假设的结果表明,若内容被完全翻译,通常在网上只会被翻译成六种语言(在其他地方则更少)。这远远低于国内外交流和商业中重要的网上语言总数。
当然,还有许多影响计算的其他变量和因素。例如,应该翻译却没有翻译的,以及现有内容的许多部分。但能确定的是有大量内容永远不会被翻译或本地化。这不仅对技术公司而言是机会,对语言行业而言也是如此。
大数据对语言行业而言意味着什么
我们讨论的大数据和翻译需求为语言行业展现了机会,但是许多译员由此担心MT的广泛应用会剥夺了他们的工作机会。我们的研究估计,译员实际上会因MT而失去一些较低价值的工作,但在可预见的将来,译员的总体工作量将以稳定的速度增长。
如果我们还考虑扩展译后编辑——可以肯定,这是一个有争议的话题——相对于当下对未来译员的依赖,译后编辑更加依赖专业人才。因此,如果要跟上需求,译员们需要利用大数据来提高生产率。一些人将更进一步成为可以构建、训练和改进MT引擎的专家。
在生产力方面,我们看到今天的大数据是基于统计的MT引擎,可用来补充其他MT模型的译后编辑过程。与MT的连接可用于CAT工具,如Kilgray memoQ、Memsource Cloud和SDL Trados Studio。同时,像Lilt这样的创业公司也使用类似CAT的工具中的MT输出加速人工翻译进程。软件开发人员也向我们表明,他们正在评估大数据机器学习技术,以改进术语、翻译记忆库、消歧,以及对其他各种内容的创建、本地化和任务审校。简而言之,大数据将改进译员使用的大多数软件工具。随着MT技术的发展,口译员也将受益匪浅。
大数据对语言专家而言意味着什么?正如他们看到的翻译记忆库和术语管理一样,语言专家将能使用另一种工具。由于这种软件会对源内容的分析进行改进,最终买方和代理方的雇主都希望他们使用这种软件提高工作效率。
我们2016年针对语言服务提供商的调查发现,49%的受访者已经承认将MT译后编辑作为其服务。早在2012年,我们的研究就显示,21%的自由职业者都使用过这项技术。
有些人将舍弃传统的翻译公司结构,成为大数据专家。他们将创建行业和领域专用记忆库并收集、分析和翻译内容。语言专业人员与数据应用程序合作利用相关结果“丰富”有用元数据(如主题分类、名称和实体分类等)的内容策略倾向正在出现。这种倾向将使本地化人员能够创造特殊的市场价值。有些将采取下一步措施进入全球主流营销,增加他们的投资组合服务,如跨国商业智能,以帮助公司更好地了解其市场,或跨语言语义和情绪分析,以消除多语言的消费者和商业买家的多语言内容。
大数据大大增加了内容量。同时,基于大数据科学的自动化内容丰富和分析工具将能够训练更复杂的工具,帮助人们翻译不断增长的内容,并使机器能够缩小生成的内容与实际翻译内容之间的差距。毫无疑问,一些语言专家会将这些基于大数据的创新视为威胁。而另一些人则会将这种进步看成是一种机遇,它可以帮助确定源内容的意义,增强其他工具的有用性,以此提高生产率。
虽然这还没有发生,但我们推测,由这些现象推动的MT可以消除译员的“隐身衣”,给予他们更大的认可和更高的地位。即使机器翻译的比例大于人工翻译的比例,人工翻译的数量也绝对会增加,例如生命科学等领域。反过来,人工翻译的感知价值可能会增加。这是为什么呢?因为当采用人工翻译时,则意味着这项工作非常非常重要。这跟会计差不多。软件可以处理日常事务,但是当出现问题或事情至关重要时,还是需要资深会计来进行处理。
由于语际交流变得透明化,我们预测出现高价值交易(即需要笔译译员和口译译员)的情况将会增多,而不是减少。如果提供商费用增加,并且公司使用MT来满足较大比例的语言需求,则会使译员受益,因为他们付出了很大的代价来支持客户体验和其他高价值互动的最重要内容。

世联翻译-让世界自由沟通!专业的全球语言翻译供应商,上海翻译公司专业品牌。丝路沿线56种语言一站式翻译与技术解决方案,专业英语翻译日语翻译等文档翻译、同传口译、视频翻译、出国外派服务,加速您的全球交付。 世联翻译公司在北京、上海、深圳等国际交往城市设有翻译基地,业务覆盖全国城市。每天有近百万字节的信息和贸易通过世联走向全球!积累了大量政商用户数据,翻译人才库数据,多语种语料库大数据。世联品牌和服务品质已得到政务防务和国际组织、跨国公司和大中型企业等近万用户的认可。
  • “贵司提交的稿件专业词汇用词准确,语言表达流畅,排版规范, 且服务态度好。在贵司的帮助下,我司的编制周期得以缩短,稿件语言的表达质量得到很大提升”

    华东建筑设计研究总院

  • “我单位是一家总部位于丹麦的高科技企业,和世联翻译第一次接触,心中仍有着一定的犹豫,贵司专业的译员与高水准的服务,得到了国外合作伙伴的认可!”

    世万保制动器(上海)有限公司

  • “我公司是一家荷兰驻华分公司,主要致力于行为学研究软件、仪器和集成系统的开发和销售工作,所需翻译的英文说明书专业性强,翻译难度较大,贵司总能提供优质的服务。”

    诺达思(北京)信息技术有限责任公司

  • “为我司在东南亚地区的业务开拓提供小语种翻译服务中,翻译稿件格式美观整洁,能最大程度的还原原文的样式,同时翻译质量和速度也得到我司的肯定和好评!”

    上海大众

  • “在此之前,我们公司和其他翻译公司有过合作,但是翻译质量实在不敢恭维,所以当我认识刘颖洁以后,对她的专业性和贵公司翻译的质量非常满意,随即签署了长期合作合同。”

    银泰资源股份有限公司

  • “我行自2017年与世联翻译合作,合作过程中十分愉快。特别感谢Jasmine Liu, 态度热情亲切,有耐心,对我行提出的要求落实到位,体现了非常高的专业性。”

    南洋商业银行

  • “与我公司对接的世联翻译客服经理,可以及时对我们的要求进行反馈,也会尽量满足我们临时紧急的文件翻译要求。热情周到的服务给我们留下深刻印象!”

    黑龙江飞鹤乳业有限公司

  • “翻译金融行业文件各式各样版式复杂,试译多家翻译公司,后经过比价、比服务、比质量等流程下来,最终敲定了世联翻译。非常感谢你们提供的优质服务。”

    国金证券股份有限公司

  • “我司所需翻译的资料专业性强,涉及面广,翻译难度大,贵司总能提供优质的服务。在一次业主单位对完工资料质量的抽查中,我司因为俄文翻译质量过关而受到了好评。”

    中辰汇通科技有限责任公司

  • “我司在2014年与贵公司建立合作关系,贵公司的翻译服务质量高、速度快、态度好,赢得了我司各部门的一致好评。贵司经理工作认真踏实,特此致以诚挚的感谢!”

    新华联国际置地(马来西亚)有限公司

  • “我们需要的翻译人员,不论是笔译还是口译,都需要具有很强的专业性,贵公司的德文翻译稿件和现场的同声传译都得到了我公司和合作伙伴的充分肯定。”

    西马远东医疗投资管理有限公司

  • “在这5年中,世联翻译公司人员对工作的认真、负责、热情、周到深深的打动了我。不仅译件质量好,交稿时间及时,还能在我司资金周转紧张时给予体谅。”

    华润万东医疗装备股份有限公司

  • “我公司与世联翻译一直保持着长期合作关系,这家公司报价合理,质量可靠,效率又高。他们翻译的译文发到国外公司,对方也很认可。”

    北京世博达科技发展有限公司

  • “贵公司翻译的译文质量很高,语言表达流畅、排版格式规范、专业术语翻译到位、翻译的速度非常快、后期服务热情。我司翻译了大量的专业文件,经过长久合作,名副其实,值得信赖。”

    北京塞特雷特科技有限公司

  • “针对我们农业科研论文写作要求,尽量寻找专业对口的专家为我提供翻译服务,最后又按照学术期刊的要求,提供润色原稿和相关的证明文件。非常感谢世联翻译公司!”

    中国农科院

  • “世联的客服经理态度热情亲切,对我们提出的要求都落实到位,回答我们的问题也非常有耐心。译员十分专业,工作尽职尽责,获得与其共事的公司总部同事们的一致高度认可。”

    格莱姆公司

  • “我公司与马来西亚政府有相关业务往来,急需翻译项目报备材料。在经过对各个翻译公司的服务水平和质量的权衡下,我们选择了世联翻译公司。翻译很成功,公司领导非常满意。”

    北京韬盛科技发展有限公司

  • “客服经理能一贯热情负责的完成每一次翻译工作的组织及沟通。为客户与译员之间搭起顺畅的沟通桥梁。能协助我方建立专业词库,并向译员准确传达落实,准确及高效的完成统一风格。”

    HEURTEY PETROCHEM法国赫锑石化

  • “贵公司与我社对翻译项目进行了几次详细的会谈,期间公司负责人和廖小姐还亲自来我社拜访,对待工作热情,专业度高,我们双方达成了很好的共识。对贵公司的服务给予好评!”

    东华大学出版社

  • “非常感谢世联翻译!我们对此次缅甸语访谈翻译项目非常满意,世联在充分了解我司项目的翻译意图情况下,即高效又保质地完成了译文。”

    上海奥美广告有限公司

  • “在合作过程中,世联翻译保质、保量、及时的完成我们交给的翻译工作。客户经理工作积极,服务热情、周到,能全面的了解客户的需求,在此表示特别的感谢。”

    北京中唐电工程咨询有限公司

  • “我们通过图书翻译项目与你们相识乃至建立友谊,你们报价合理、服务细致、翻译质量可靠。请允许我们借此机会向你们表示衷心的感谢!”

    山东教育出版社

  • “很满意世联的翻译质量,交稿准时,中英互译都比较好,措辞和句式结构都比较地道,译文忠实于原文。TNC是一家国际环保组织,发给我们美国总部的同事后,他们反应也不错。”

    TNC大自然保护协会

  • “原英国首相布莱尔来访,需要非常专业的同声传译服务,因是第一次接触,心中仍有着一定的犹豫,但是贵司专业的译员与高水准的服务,给我们留下了非常深刻的印象。”

    北京师范大学壹基金公益研究院

  • “在与世联翻译合作期间,世联秉承着“上善若水、厚德载物”的文化理念,以上乘的品质和质量,信守对客户的承诺,出色地完成了我公司交予的翻译工作。”

    国科创新(北京)信息咨询中心

  • “由于项目要求时间相当紧凑,所以世联在保证质量的前提下,尽力按照时间完成任务。使我们在世博会俄罗斯馆日活动中准备充足,并受到一致好评。”

    北京华国之窗咨询有限公司

  • “贵公司针对客户需要,挑选优秀的译员承接项目,翻译过程客户随时查看中途稿,并且与客户沟通术语方面的知识,能够更准确的了解到客户的需求,确保稿件高质量。”

    日工建机(北京)国际进出口有限公司

18017395793

18017853893
一键添加微信

立即咨询