最近的Google I/O大会非常热闹。
发布会最后一天,Alphabet 董事长John Hennessy 亲自承认Google Duplex 在预订领域已经通过了图灵测试。
通过图灵测试!
多么激动人心的六个字。人工智能改变的世界蓝图似乎正在我们眼前展开。
人工智能成果爆发以来,除了机器学习之外,热门领域还包括——机器翻译,它是计算机语言学、人工智能和数理逻辑的交叉学科。
机器翻译起源于何时?现在已经发展到什么程度了?
国内在机器翻译方面有哪些研究成果,有哪些公司推出了令人惊叹的实际应用?
在其发展道路上,有哪些专家发表了哪些成果,推动了地球人无障碍沟通的梦想计划?
未来机器翻译会应用在哪些领域?其发展趋势如何?
您可以在未来一周找到这些问题的答案。
首先,我们需要了解机器翻译是如何出现的。
惊人的开始
Warren Weaver 表示:我认为机器翻译是可行的
于是全世界都开始搞机器翻译
1946年,第一台数字电子计算机诞生。从那时起,人们开始思考如何用计算机来代替人进行翻译工作。甚至在此之前,图灵就已经开始思考计算机是否能够思考。
三年后,1949年,我国正式成立,机器翻译的想法也正式提出:Warren Weaver发表了《翻译》备忘录,这也被视为机器起步阶段的第一个标志性事件翻译。
Warren WeaverWarren Weaver 在备忘录中演示了机器翻译的可计算性,并提出了两个要点。
第一种观点:他认为翻译类似于破译密码的过程,“翻译就是解码”。
第二种观点:他认为原文和译文“说的是同一件事”。
因此,当语言A翻译成语言B时,意味着从语言A开始,会经过某种“通用语言”或“中间语言”(可以假设这种语言是全人类共同的),而终于达到了B语言。
1954年,美国乔治城大学与IBM合作进行了英俄翻译实验,开始了翻译自动化的尝试。这是机器翻译发展初期的第二个里程碑事件。
总体来说,现阶段人们头脑中已经形成了机器翻译的概念,并开始意识到利用语法规则转换和词典来达到翻译目的。
人们乐观地认为,只要扩大词汇量和语法规则,机器翻译的问题将在不久的将来得到完美解决。
因此,在此后的很长一段时间内,世界各国都大力支持机器翻译项目,形成了机器翻译研究的高潮。
显影冷却
ALPAC 说:我觉得机器翻译不好
于是大家就不再搞机器翻译了。
经过17年的蓬勃发展,机器学习迎来了第一个发展低谷。
1966年11月,美国自动语言处理咨询委员会(ALPAC)发布了著名的ALPAC报告,从速度、质量、成本、需求等多个角度给几乎所有方面的机器翻译研究泼了一盆冷水。
APLAC当时对各种翻译系统进行了评估,并在报告中表示,机器翻译的翻译质量明显远低于人工翻译。
难以逾越的“语义障碍”是当时机器翻译遇到的问题。 ALPAC在报告中完全否定了机器翻译的可行性,并建议各大机构停止对机器翻译的投资和研究。
虽然这份报告的结论过于仓促和武断,但现阶段机器翻译的研究并没有解决很多关键问题,也没有对语言进行深入的分析。
此后,机器翻译在全球范围内经历了前所未有的萧条。
重新开始本章
大公司表示:我们认为需要再做一次
于是机器翻译又复活了
20 世纪80 年代末,由于微处理器的出现,计算机能力突飞猛进。
机器翻译学科具有巨大的发展潜力和经济效益,又开始被人们提及。
许多大公司开始投入资金和人力进行研究,让机器翻译得到了再次复兴和发展的机会。
这一时期,计算语言学的一些基础工作,比如很多重要算法的研究已经达到了比较深入的阶段,语法和语义的研究也取得了一些比较显着的成果。
词法分析、句法分析算法相继开发,电子词典等软件资源建设得到加强。
翻译方法用变换方法来表示。一般采用以分析为主、语义分析为辅的规则进行翻译,并采用抽象变换表示的分层实现策略。
抽象变换的分层实现语法与算法的分离是这一时期机器翻译的另一个特点。
所谓语法与算法分离,是指将语言分析和编程分离为操作的两部分。程序员提出规则描述的方法,而语言工作者则用这种方法来描述语言规则。
热的
世界:我们需要更准确、更快的翻译
机器翻译加入深度学习和其他人工智能技术
目前,机器翻译已成为国际自然语言处理研究的热点。
原因之一是网络化、国际化带来的翻译需求不断增加,翻译软件的商业化趋势也非常明显。
这一时期的翻译方法一般被称为经验主义翻译方法。
即以实例和基于统计的方法为主,注重大规模语料库的构建,开始处理大规模的真实文本。
同时,现阶段的研究工作开始解决一个比文本翻译更复杂、更困难的问题,——语音翻译。
由于互联网上的机器翻译系统具有巨大的潜在市场和商业利益,在线翻译机系统在实用领域也进入了新的突破阶段。
机器翻译的功能越来越强大。从一开始只能翻译简单的单词,到后来可以翻译基本符合语法的句子,逐渐可以翻译有一定逻辑性的句子。
现在,一些软件已经可以根据上下文自动翻译,翻译结果的准确性和可读性都取得了很大的进步。
近年来,融入深度学习技术等人工智能的机器翻译已经超越了简单地将单词翻译成另一种语言的范畴。相反,它可以像人类翻译一样,不断回溯来理解结构复杂的句子并将它们连接起来。根据上下文进行翻译。
最明显的是,一些机器翻译软件现在可以理解每个代词指的是谁,这在很多年前是不可想象的。
实现这一功能的关键依赖于两种神经网络架构:一种是循环神经网络(RNN),另一种是卷积神经网络(CNN)。
关于这两种网络架构中哪一种更适合机器翻译,仍然存在很多争论。稍后我们将分别介绍循环神经网络和卷积神经网络。至此,机器翻译的脉络已经给大家简单梳理了一下。
机器翻译技术的来源事实上,机器翻译很难真正落地到实际应用中。因为很多人对其效果抱有极高的期望,但很难完美实现。
有语言学学者指出,机器翻译目前还没有思想,很难取代人类。
然而现在已经是2018年了,Google Duplex已经通过了图灵测试。未来还有什么是不能发生的呢?
我们期待着未来的“某一天”。