腾讯 AI Lab 副主任俞栋：实现人机自由对话，还有四个问题亟待解决 - 陕西消费网

腾讯 AI Lab 副主任俞栋：实现人机自由对话，还有四个问题亟待解决

5 月 27 日，由机器之心主办、为期两天的全球机器智能峰会（GMIS 2017）在北京 898 创新空间顺利开幕。

腾讯 AI Lab 副主任俞栋博士、「LSTM 之父」Jürgen Schmidhuber、加州大学伯克利分校人工智能系统中心创始人Stuart Russell教授、中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃及Citadel 首席人工智能官邓力等多位知名人工智能专家参与峰会，并在主题演讲、圆桌论坛等互动形式下，从科学家、企业家、技术专家的视角，解读人工智能的未来发展。

本次GMIS大会,腾讯入选全球100家最值得关注的人工智能公司“A100榜单”，俞栋作为公司代表获奖并致辞，其它获奖公司包括英特尔、亚马逊、英伟达、微软和百度等。

在会上，腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋博士发表了主题为《语音识别领域的前沿研究（Frontier Research of Speech Recognition）》的演讲，探讨分享了语音识别领域的四个前沿问题。

俞栋认为，虽然语音识别在过去几十年里取得了一定进步，如今机器也已经在电话聊天这样的任务上达到甚至超过人的识别水准，但是离真正的人与机器的自由交流还有一定差距。

以下是俞栋演讲的主要内容：

语音识别是一个有着悠久历史的研究领域。在过去的几十年里，研究人员从最简单的小词汇量朗读语音识别问题 Read Speech 开始，逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今，即便是在以前认为非常难的电话自由聊天这样形式的语音识别问题上，机器也已经达到甚至超过人的识别水准。但是我们要看到，虽然取得了这些进展，但离真正的人与机器的自由交流还有一定差距，这也就是为什么语音识别的研究前沿需要继续往前推进一步。

如今我们研究的语音识别问题越来越没有环境、说话风格、口音、词汇等限定（不像以前有非常多的限制），这极大地增加了语音识别的难度，同时研究的前沿也从近场麦克风转向远场麦克风。两者的区别在于，在远场情况下，当人的声音传达到麦克风时，声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难，在远场麦克风场景下就变得很明显。如果不解决这些问题，用户在很多的应用场合仍然会觉得语音识别效果欠佳。

今天我介绍一下在这样的背景下语音识别的一些前沿研究方向。

研究方向一：更有效的序列到序列直接转换的模型。

语音识别实际上是把语音信号的序列转化为文字或词的序列，所以很多人认为要解决这个问题，找到一个行之有效、序列到序列的转换模型就可以了。

从前的绝大部分研究是通过对问题做假设，然后据此在语音信号序列到词序列之间构造若干个组件，把语音信号序列逐步转换成词的序列。这些假设中的许多部分，比如短时平稳假设和conditional independence假设，在某些特定场合是合理的，但是在很多真实的场景下是有问题的。而序列到序列直接转换的模型背后的思路是说，如果我们去掉基于有问题的假设而设计的这些组件，然后以从训练数据中学到的转换模型来替换，就有可能找到更好的方法，使序列转换更准确。

这样做另外一个好处是整个的训练过程也可以变简单。

序列到序列直接转换的模型目前来讲主要有两个方向：方向一：CTC模型。

CTC模型十分适合语音识别这样的问题，因为它要求输出序列长度比输入序列长度要短很多。CTC模型还有一个优势，在传统的深度神经网络/隐马尔科夫混合模型中建模单元一般非常小，都在sub-phone级别。但是在CTC模型里面你可以相对自由地选择建模单元，而且在数据量足够大的情况下建模单元越大，识别效果反而会越好。

最近谷歌有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统的混合模型。但由于训练稳定性差，CTC模型相对于传统模型仍然更难训练好。

更有效的序列到序列直接转换的模型的第二个方向是：Attention 模型

Attention 模型首先把输入的语音信号序列转换成一个中间层的序列表达，在这个中间层序列表达上面，能够融合上下文信息，然后就可以基于这个中间层的表达用一个专门的、基于递归神经网络的生成模型来生成转换后的词序列。这个方法在机器翻译里面现在成为了主流方案，但是在语音识别里面它还是一个非常不成熟的技术，它有目前有几个问题。

问题1：生成模型所依赖的信息在训练和解码时是不一致的。这使得在解码时错误会累加。所以目前比较适合短语的识别，对长的句子效果比较差。

问题2：attention的窗口没有时序的限定，所以有时候要生成下一个词时，attention 窗口反而跑到时间上更靠前的语音信号上去了。所以在做语音识别的时候，它的训练因而最后的结果相对来说非常不稳定。

那么如何解决这些问题？目前最佳的解决方案就是把 CTC 与 Attention 结合起来，这主要是因为CTC能保证时序信息，即后面的词一定是根据后面的语音信号生成的，由于编码部分是CTC 与 Attention共享的，这有助于 Attention模型所基于的中间表达能更好地生成识别结果。有意思的是在某些情况下两者结合的模型比CTC和Attention各自训练的效果都更好。

但是，即便把 CTC 与 Attention 两种模型结合起来，其效果与传统混合模型相比，依然没有太多优势。所以我们仍然需要解决一些问题。

问题一：在这样的架构下面，有没有更好的一些模型结构，或者是训练准则，能够比现有的CTC或者Attention模型更好。

问题二：当拥有的数据较少时，有没有办法建造一个结构，使得语言模型和声学模型紧密结合在一起。有语音信号时语言模型可以和声学模型一起训练，没有语音信号时，语言模型可以只用文本信息来训练。

问题三：如何利用各种语料的数据，整合起来训练一个更好的序列到序列转换模型。这可能需要在模型的很多层面上可以做迁移学习。

研究方向二：鸡尾酒会问题。

人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上，屏蔽掉周围的说话声或噪音，非常好地听懂他/她要关注的那个人的说话声音。现在绝大部分的语音识别系统还没有这个能力。这个问题在近场麦克风并不明显，这是因为人声的能量对比噪声非常大，而在远场识别系统上，信噪比下降得很厉害，所以这个问题就变得非常突出，成为了一个非常关键、比较难解决的问题。

鸡尾酒会问题的主要困难在于Label Permutation，而这个问题目前有两个较好的解决方案：

方案一：Deep Clustering。

方案二：Permutation invariant Training。

但是在这些工作里我们只用到了单麦克风的输入信息。而我们知道麦克风阵列可以提供更多的信息，所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强这些模型和方案的能力。第二个就是有没有办法能够找到一个更好的分离模型，因为现在大家用的还是LSTM，但是LSTM不见得是最佳模型。第三个问题是我们有没有办法利用其他的信息，比如语言和发音模型以及解码器里的信息来进一步提升它的性能。

研究方向三：持续预测与适应的模型。

第三个大家关注的热点是能否建造一个持续做预测并自适应的系统。我们之前做了一个模型叫PAC-RNN，它的好处是能够非常快地自适应，从而持续改进识别结果。但是这个模型由于递归神经网络的环路比较大，训练上比较困难。

所以现在的问题是如何建造一个更好的模型，它能够持续地做预测和自适应。它需要的特点是什么呢？一个是它能够非常快地做Adaptation并优化接下来的期望识别率。另外它要能发现频度高的regularities并把这些变成default model的一部分，不需要再做adaptation。还有就是我们有没有办法把大类的自适应模型用更好的方式压缩在模型里面，使得adaptation可以直接从这些模型开始而不是default model。

研究方向四：前后端联合优化。

第四个研究前沿有关远场识别以及如何做前端和后端更好的联合优化。目前来讲，前端的信号处理技术一般只用到当前状态下的语音的信号信息，这些信息的利用主要靠对声学物理规律的把握并基于一定的假设。而机器学习的方法能利用很多的训练集里学到的信息来建模，但是它一般不是基于物理原理的，对当前帧信息的使用比较弱。所以我们有没有办法把这两种方法比较好地融合在一起，这是目前很多研究组织发力的一个方向。

另外，我们有没有办法把前端的信号处理跟后端的语音识别引擎做更好的联合优化。因为前端信号处理有可能丢失信息，且不可在后端恢复。以前那种分别优化的策略可能对于前端来说是最优的，但是放在整个系统里就不是了。所以我们有没有办法做一个自动的系统，能够比较好地分配前后端的处理，使得前端可以有效提升信号质量但同时比较少地丢失信息，而把一些剩余的噪声留给更强大的后端来处理，从而提升整体性能。

<完>

关于腾讯AI Lab

腾讯AI Lab于2016年四月成立，总部位于深圳。作为腾讯公司级AI实验室，AI Lab专注于基础研究和应用探索的结合，致力于提升AI决策、理解及创造能力，并为腾讯各个产品及业务提供AI技术支持。

AI Lab专注四大基础研究方向：计算机视觉、语音识别、自然语言处理和机器学习。每个领域代表一个AI基础研究方向，又能进行深层次的研究拓展。结合腾讯独有场景和业务优势提出内容、游戏、社交和平台工具型AI四大应用探索。技术在天天快报、手机QQ及天天P图等上百个产品中应用。

腾讯AI Lab深圳总部由机器学习和大数据领域专家张潼博士领导，现有50多位世界知名院校的AI科学家（90%为博士）及200多位应用工程师，聚焦四大基础研究及应用方向的结合。西雅图研究室由AI Lab副主任、语音识别及深度学习领域专家俞栋博士领导，偏向语音识别及自然语言理解两大领域的基础研究。

关于俞栋

俞栋博士是腾讯AI Lab（人工智能实验室）副主任，及美国西雅图AI实验室负责人，负责该实验室的运营及管理，推动腾讯在语音识别及自然语言理解等AI领域的基础研究。俞栋博士是语音识别与深度学习领域的资深专家，曾在相关领域出版两本专著并发表大量论文。他也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。加入腾讯前，他曾担任美国微软研究院语音和对话组（Speech and Dialog Group）首席研究员，并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。

俞栋博士与George Dahl 博士、邓力博士等共同研发的上下文相关深层神经网络-隐马尔科夫模型（CD-DNN-HMM）是深度学习技术在大词汇量语音识别任务上的首次成功应用。他们的这项突破性工作，获 2013年IEEE信号处理协会（IEEE SPS）最佳论文奖，引起了大词汇量语音识别研究方向的转变，极大地推动了语音识别技术的发展。俞博士曾获2013年和2016年IEEE信号处理协会最佳论文奖，现任 IEEE 语音语言处理专业委员会委员，曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

俞栋博士拥有中国浙江大学电子工程学士学位、美国印第安纳大学计算机硕士学位、中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。