下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

究竟是什么阻碍了语音识别技术的发展?

作者:课课家教育     来源: http://www.kokojia.com点击数:729发布时间: 2016-12-19 11:06:26

标签: Windows计算机开发

软考,您想通过吗?一次通过才是硬道理

  【课课家快讯】 语言识别技术近期已经成为了众多科技厂商的攻坚重点,但如今许多内置智能语音助理设备的实际使用体验都不尽如人意。对此,《彭博社》日前就撰文对这一情况进行了一番剖析,并一针见血的指出语音识别技术的发展及其背后语音数据库的规模或许就是这类产品未来发展的命门所在。

究竟是什么阻碍了语音识别技术的发展?_开发_课课家

  以下是文章主要内容:

  亚马逊Echo智能音箱的出现将人工智能助理走进每家每户的梦想“几乎”打造成了现实,许多使用过Echo内置Alexa语音助理的用户都会被她所吸引。因为Alexa不仅能帮助用户呼叫Uber专车,还能预定披萨或者完成十年级学生的数学家庭作业。亚马逊官方甚至表示,每天都有超过5000人通过各种方式对Alexa“示爱”。

  但在另一方面,许多Alexa的用户也知道,除非你缓慢、清晰地说出自己的语音指令,否则Alexa很有可能又对你说“抱歉,我无法回答这个问题”。一位用户就在亚马逊网站上写道:“我对她是又爱又恨,你很快就会学会通过她能理解的方式与之沟通,但这就像是跟刚会走路的孩子说话一样令人沮丧。”

  然而,这位用户仍然给了Alexa五星好评。

  在过去几年间,语音识别技术已经实现了长足进步,但仍不足以让这项技术融入到人们的日常生活,或者开启让我们与汽车、洗衣机、电视机等电子产品展开语音沟通的人机互动新时代。最简单的一个例子是,如今许多人仍会通过手势和触摸的方式进行操作,且这一趋势在可预见的未来恐怕都不会改变。

  究竟是什么阻碍了语音识别技术的发展?

  应该说,这在一定程度上源于语音识别技术背后的源动力人工智能仍有巨大上升空间所致。此外,有关诸如不同语言、不同口音、不同方言以及这些语言在嘈杂环境中的语言数据缺失也是造成这一问题的重要原因。

  所以,包括亚马逊、苹果、微软和百度都在世界范围内广泛收集人类语音数据。其中,微软已经在全球多个城市打造了专门用于录制志愿者在家居环境中对话内容的工作室;亚马逊每小时都会将Alexa收集到的海量语音请求上传到庞大的数据库;百度正在收集中国各地的方言数据,然后利用这些数据告诉电脑该如何分析、理解、响应不同的语音指令。

  百度硅谷人工智能实验室总监亚当-科茨(Adam Coates)认为,这一技术的真正挑战在于寻找一种可以捕捉到自然状态下真实对话的方式,因为就算是95%的准确率也不足以令人满意。

  “我们的目标是将错误率降低到1%,这一水平下我们才可以充分相信机器能够理解我们所说的内容,而这也是革命性的成就。”科茨说道。

  不久前,所谓的“语音识别”技术还非常不成熟。在2006年一次面向分析人和投资人的演示中,微软早期在Windows中配备的语音识别技术就把“mom”听成了“aunt”。而在苹果五年前推出Siri时,这一个人助理服务同样因为无法响应正确答案或无法听清问题而备受嘲笑。比如,在被问及吉莉安-安德森(Gillian Anderson)是不是英国人时,Siri竟然提供了一份英国餐馆列表。不过如今,微软已经声称自己的语音引擎错误率可以同专业速录员不相上下,Siri渐渐赢得了人们的尊重,而Alexa的出现则更是让我们窥见了未来。

  何谓数据为王

  应该说,这一进步很大程度上需要归功于神经网络技术的发展。简单来说,神经网络技术是一种模拟人脑结构的人工智能技术,即可以无需明确指令自学各种内容,但通常也需要拥有庞大、多样的数据内容。语音识别引擎获取、分析的数据越多就越能理解不同的声音,也就越接近实现在真实语言环境中展开自然对话的目标。

  百度首席科学家吴恩达(Andrew Ng)表示:“我们系统获得的数据越多,其实际表现就越好。语音识别是一项资本密集型业务,目前还没有多少组织拥有如此庞大的数据库。”

  当科技企业上世纪90年代开始重视语音识别技术时,微软等企业主要依靠的都是来自诸如Linguistics Data Consortium(该机构总部位于美国宾夕法尼亚大学,并得到了美国政府的支持)等研究机构提供的公开数据。此后,科技企业才开始收集自己的语音数据,其中一些企业甚至收集了志愿者朗读的各种语音内容。现在,随着语音控制软件越来越受到欢迎,这些企业也开始通过自己的产品和服务收集语音数据。

  具体来说,当你通过语音指令用手机搜索信息、播放歌曲或导航时,这些语音数据很可能会被科技企业收集下来。而当你向Alexa询问天气和最近的橄榄球赛比分时,她便会利用这些语音指令改进自己的自然语言理解能力

  “从产品设计的角度来看,你使用Alexa的次数越多,Alexa就会越聪明。”Alexa首席科学家尼克-斯特罗姆(Nikko Strom)说道。

  两大挑战

  在这一方面,最关键的挑战就是让语音识别技术熟悉不同的语言、口音和方言,这一问题在中国显得尤为明显。为了收集中国各地的方言数据,百度在今年春节期启动了一项名为“方言对话项目”(dialect conservation initiative)的营销计划。百度承诺,如果用户为该项目作出了贡献,他们今后便可使用自己的方言与百度展开互动。在两周时间内,百度录制了超过1000小时的方言数据。而且,许多人都愿意免费提供这些数据。其中,一位四川的高中教师就对该项目十分感兴趣,他甚至鼓励全班同学用四川话录制了1000多首古诗。

  当然,这一技术面临的另外一大挑战是如何在嘈杂的环境中识别语音指令,就比如在酒吧或者体育场环境中准确识别语音指令。此前,微软已经在Xbox上部署了一款名为“Voice Studio”的应用,专门收集人们在玩游戏或看电影时的语音数据。而为了吸引用户提供自己在玩游戏时候的对话内容,该公司还为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。

  据悉,这一项目在巴西展开的非常成功,当地团队甚至还在Xbox主页上着重推广了这款应用。随后,微软利用收集到的这些数据成功开发出了巴西葡萄牙语版的Cortana语音助理,并于今年早些时候正式发布。

  除此之外,不少企业也在为特定使用环境设计独特的语音识别系统。比如,微软就在测试可以不受机场广播信息干扰的语音识别系统,以更好的为旅行者服务。而且由于这一技术可以忽略嘈杂的汽车音响、孩子们的叫声和“嗯嗯”等无意义的口语,它甚至还可以被用于麦当劳汽车穿梭餐厅的自动点餐系统。同时,亚马逊如今也在汽车上测试自己的语音识别系统,并希望Alexa能够在嘈杂的道路环境下正常工作。

  语音识别的未来或许就在拐角处

  如今在各大企业争相收集语音数据同时,他们也在努力寻找利用更少数据实现更高语音识别准确率的方法。微软首席语音科学家黄雪冬(音译,Xuedong Huang)已经在公司从事了20余年语音识别技术开发工作,他表示:“麦当劳正在测试的语音识别技术调用的数据量并不多,但准确性依旧很高。因此我们相信,即便在数据量有限的情况下也可以实现技术突破。”

  从这个角度来说,谷歌倒是一直相信“少即是多”(less is more)的办事理念。该公司希望利用不知所云的声音来构建文字和短语,并拼接了数万段时长仅为2-5秒的语音片段。谷歌研究员弗朗索瓦兹-比伦法斯(Francoise Beaufays)表示,这一过程所需的计算资源更少,也更容易进行测试和修改。

  与此同时,网上也在开发更加高效的算法,以帮助计算机在学习一种语言后简化学习另外12种语言的难度。

  “这一算法在学习只有数万人掌握的语种时显得尤为重要,因为我们通常很难针对这样的语种收集到庞大的数据库。”吴恩达说道。

  然而,就算是吴恩达这样的专业人士都无法回答“何时才能通过自然语言与数字助理交流,并得到满意答案”这样的问题。因为对于专业的神经网络学家来说,这一技术领域仍有很多谜团没有找到答案。从目前人们掌握的技术和方法来看,这一技术实现突破大约还需要耗费数年时间。

  不过,吴恩达、黄雪冬和比伦法斯等科学家都表示,你永远不知道下一次技术突破会在什么时候出现。