发布时间:2025-10-15 17:03:43    次浏览
我们人类的技能,正在一个一个的被机器所掌握。首先是国际象棋,智力游戏(Jeopardy),类人机器人(ALPHAGo),工作机器人,防爆机器人,然后是对象识别,面部识别和自动驾驶技术。你甚至都可以感觉到人类已经在被机器所超越。可是尝试任何一款语音识别软件,你很快就会恢复信心。虽然软件越来越好,可他们是不完美的。很多人们之间普通的对话,软件依然无法正确识别,你会感觉到非常的放心,因为人类仍然是自己的语言的主人。很快这种观点可能必须改变。今天,Geoff Zweig和华盛顿雷德蒙微软研究院的朋友们说,他们已经破解了这种语音识别,他们的机器在识别普通会话语音时首次胜过人类。语音识别研究有悠久的历史。在20世纪50年代,早期的计算机可以识别由一个说话者清楚地说话出的10个单词。在20世纪80年代,研究人员建立了可以用1000个字的词汇表示简单语言的机器。在20世纪90年代,计算机发展到一个阅读“华尔街日报”的人的录音,然后到广播新闻演讲。这些语音对话的发展非常迅速,但由于各种限制,它们也比人们之间的普通对话更简单。 “华尔街日报”中的词汇仅限于商业和金融方面,句子结构良好,语法正确,单这不一定能够适用于人们之间的普通对话。广播新闻演讲虽然不是特别正式,但仍然结构高度清晰明显。所有这些例子最终都被机器征服。但是,转录普通的人类对话成为了语音识别最困难的任务。普通对话语言由于词汇量的过于简单而显得更加困难,并且还因为人们说话时除了正常的语言之外还会使用一些额外的“噪音”。人类使用一系列“噪声“来管理自己的交谈,语言学家称为反向信道的沟通。例如,uh-huh用于确认他或她应该继续说话的信号。但是,这是一个犹豫,表示说话者有更多地说要说,也可能是一个警告,或者更多。人类能够很容易理解这些声音他们在谈话中的作用。但对于机器确实非常的困难。2000年,国家标准与技术研究所发布了一个数据集,以帮助研究人员解决这个问题。数据包括电话上普通对话的录音。其中一些是在指定主题的个人之间的对话。其余的是人们和朋友以及亲戚之间的对话。大多数数据是帮助训练机器学习算法来识别语音。其余的是一个测试,机器必须转录。性能的测量是机器错误的词语的数量,最终的目标是比人类更好地完成任务。那么人类有多好?一般的共识是,当谈到转录,人类的错误率约4%。换句话说,他们转录时每一百个有四个字不正确。过去,机器远远没有接近这个标准。现在微软说,计算机终于能够匹配人类的表现。微软研究人员通过将NIST数据集中的电话录音发送到专业转录服务来重新评估人类在转录任务中的表现。他们实现了错误率的测量。令人惊讶的是,他们发现,这项服务对于指定主题的个人之间的对话错误率为5.9%,对于朋友和家庭成员之间的对话,错误率为11.3%。这比想象的要高得多。接下来,微软研究人员基于具有不同层数的卷积神经网络,共同优化了它们自己的深度学习系统,每个层都处理语音的不同方面。然后他们使用训练数据集来教导机器理解普通语音,并让它松散在测试数据集上。结果:总的来说,微软的语音识别系统与人类具有相似的错误率,但是它所产生的错误的种类却截然不同。Microsoft机器最常见的错误是混淆反向通道声音uh和uh-huh。相比之下,人类很少犯这样的错误,而是倾向于混淆像a和a或uh和a。原则上没有理由机器不能被训练来识别反向声道声音。 微软研究人员认为机器的困难可能是与这些噪声在训练数据集中标记的方式有关。 “这里的自动系统相对较差的性能可能只是由于训练数据注释的混乱,”他们说。然而,总的来说,机器匹配在指定主题上的对话的人为错误率5.9%,但在朋友和家人对话的任务中的错误率为11.1%低于人类的错误率11.3%。 “第一次,我们报告自动识别性能与这个任务的人类表现一致,”微软的研究人员说。这是有趣的工作,机器在语音识别方面变得比人类更好。这将对我们与机器的交互方式产生重大影响。本文为原创,如需转载,请注明作者维新高掌柜,出处为因思维新,谢谢!