跳转到主要内容

开拓语音识别

100

Tab navigation

从《2011 太空漫游》中的 HAL 到《星球大战》中的 C-3PO,人们长期以来一直幻想着能够与机器对话。科学家在研制计算机的过程中一直在努力开发语音识别技术。如今,经过近半个世纪的发展,几百万人经常与汽车、智能电话和客户服务呼叫中心内的计算机进行语音交互。

REPORT FROM IBM YORKTOWN RESEARCH CENTER, NEW YORK

REPORT FROM IBM YORKTOWN RESEARCH CENTER, NEW YORK

语音广告的分析

这份 IBM 广告介绍了 IBM 约克镇研究中心的语音识别项目。

Shoebox

William C. Dersch 的 Shoebox 可以通过语音命令执行简单的数学计算。

Shoebox

Shoebox

展开与折叠

IBM 语音识别系统从在一个机房中存储 5000字发展到在一台 IBM 个人电脑中存储 20,000字的词汇量。

ViaVoice 98

1998年发布的这篇新闻报道介绍了语音识别、使用方式以及 IBM 研究院改进其生产力和通信能力的方式。

目前,经过几百位统计、语言学、语义学、预测算法和音频处理科学家和工程师几十年的努力,语音识别的效率大大提高。早在 20世纪 50年代,IBM 员工(如 IBM® 701 的设计师 Nathaniel Rochester)就在研究模式识别和人工智能,这是语音识别的构件。

1962年,William C. Dersch 发明了 Shoebox — 这种机器可以通过语音命令进行简单的数学计算。位于加利福尼亚州圣何塞的 IBM 实验室的工程师 Dersch 在电视上和 1962年的华盛顿州西雅图世界博览会上演示了 Shoebox。这个设备可以识别通过麦克风说出的十个数字和六个控制符号—包括“加号”、“减号”和“总计”。

1971年, IBM 开发了语音识别技术的下一个试验性应用系统。自动呼叫识别系统使美国各地的工程师能够向位于北卡罗来纳州罗利市的一台计算机讲话,并接收计算机“说出”的答案。这是 IBM 第一个通过电话线运行的语音识别系统,并且可以对不同的声音和声调做出响应。

之后, IBM 委派一个任务组,负责调查语音识别的长期潜力。他们强烈建议通过多学科方法利用 IBM 的计算能力实现突破。

20世纪 70和 80年代,康奈尔大学信息理论专业的杰出教授在 Thomas J. Watson 研究中心负责领导研究工作。

尽管其他人更愿意采用基于人类积累的专家知识的方法,但 Jelinek 认为,基于统计建模的数据驱动型方法是推动机器语音识别发展的途径。1987年 Jelinek 在《THINK》杂志上表示:“我们认为要求机器模拟人是错误的。毕竟,如果机器要移动,它必须有轮子—而不是走路。如果机器要飞,它就会像飞机那样—而不是通过煽动翅膀实现。我们并不是大力研究人们如何倾听和理解语音,而是希望找到一种自然的途径让机器做到这一点。”

Jelinek 和他的团队通过在 20世纪 70年代的一系列突破性试验而确定了这种理念的基本可行性,但这并不够。业界认为这些技术根本不可能真正实施。Jelinek 将此视为挑战,并且制订了宏伟的计划,在 80年代开发出了语音激活的打字机。一种名为 Tangora 的试验性语音识别系统采用 IBM PC AT 识别语音,并打印在纸上。每个讲话人必须分别训练打字机,使其能够识别他或她的声音,并且在每两个字之间稍作停顿。到 20世纪 80年代中期,Tangora 识别的词汇量达到了 20,000字,证明了统计方法的有效性。

然而,要将这种语音识别创新转化为可商用的产品,还有很长一段路要走。这个过程要求在处理能力和降低计算成本方面实现飞跃。

David Nahamoo 将 Jelinek 的开创性工作向前推进了一步。David Nahamoo 接任 Jelinek 领导这一工作。Nahamoo 和其他许多 IBM 员工为多种产品铺平了道路,例如第一款套装的语音识别产品—— IBM 语音服务器系列 (1992),以及第一款大词汇量连续语音识别产品 —— IBM MedSpeak 产品 (1996)—— 作为 IBM ViaVoice® 技术而得到了更广泛的应用。Nahamoo 在 2008年被选为 IBM 院士。

到 2003年, IBM 将 ViaVoice 的独家经销权授予 Dragon Naturally Speaking 的制造商 Nuance Communications,而 IBM 退出了语音识别的消费市场。到 20世纪 90年代末, IBM 决定集中精力开发电话和嵌入式产品,例如用于呼叫中心的 IBM WebSphere® Voice Server 和用于汽车导航的 IBM 嵌入式 ViaVoice®。尽管交互式语音识别在过去占主导地位,但目前,用于转录语音数据的新型应用不断发展。这些应用包括记录讲座和会议内容,以及电视广播的自动隐藏式字幕。

最后,过去十年内为帮助计算机理解人类语言所做的开创性工作在 Watson 机器的自然语言处理能力中得到了体现,2001年,Watson 机器在《Jeopardy!》节目中击败了真人冠军选手。Watson “阅读”写出来的线索,而不是“收听”所说的内容,但采用了统计和语言学的许多进步来分析问题。此外,Watson 还采用 IBM 语音团队主要利用统计方法论开发的语音合成技术说出答案。

1993年,Fred Jelinek 成为 Johns Hopkins 大学的计算机工程教授,并在该学校的语言和语音处理中心授课,他于 2010年 9月去世,享年 77岁。IEEE 语音和语言处理技术委员会主席 Steve Young 说:“他不是语音识别的开创者,但他实际上又是语音识别的开创者。”

Content navigation