行业动态

智能语音所遇到的技术难题及解决办法

2018-11-13

智能语音的应用从初期的手机助手形态（语音拨号、语音导航、语音搜索、语音听写等），发展到今天软硬一体的远讲降噪、语音唤醒、声纹识别、语用计算、流式交互等等。

智能语音技术主要面临的挑战

从当前的语音识别技术发展看来，基础理论和技术框架已经基本成熟，目前主要是基于深度神经网络的识别架构，再加上大规模的真实数据训练。目前在手机端的近讲语音识别错误率可以做到3%以内，在电话语音识别错误率可以做到6%以内，基本上接近或超过人工识别的水平。语义理解和知识图谱等认知技术，目前还没有形成通用的技术框架，主要是针对具体垂直领域进行优化，这部分有待突破性进展。

目前语音交互技术面临最大的挑战还是来自产业应用层面

首先是针对专业领域的优化，比如在医疗领域，通常专用词汇比较多，让我们普通人去听的时候可能都写不下来，只有经过专业训练的医生和护士才能准确记录；影视节目查询、商品搜索、路径导航等方面也同样需要做针对性的优化。

其次是相对复杂的口音和噪声环境，包括全国各地的口音和方言、远讲、噪声、混响等，都是比较复杂的。声音传播能量是随距离平方成反比关系的，传播距离增加一倍能量就衰减到四分之一，在五米外采集的语音能量，和在一米采集能量相比就相差25倍，但噪声并没有因为距离而降低，加上距离远之后，房间会出现多次反射和叠加，还会形成混响效果，信噪比会下降很多，都会对识别效果造成影响，这些是需要麦克风阵列结合语音声学模型去解决的问题。

第三是低功耗、低成本、高可靠的问题，智能家电需要满足绿色环保标准，需要确保24小时误唤醒低于1次，尽量不出现误操作，要实现大规模量产出货，还要降低整体方案的成本。面向物联网的智能语音交互方案，如果功耗成本下不来就不能普及，智能手表、手环等依赖电池的穿戴设备，功耗和成本问题就更加严重。

最后是语音交互设计问题，这是语音技术产品化的重中之重，现在的物联网设备，大到汽车、空调、机器人，小到玩具、穿戴设备等，有大有小、有带屏幕和不带屏幕、涉及不同的应用领域，交互方式差异非常大，需要针对性优化语义理解和知识图谱。

语音交互是未来物联网的重要交互手段，这是我们为什么把物联网列为语音技术落地主战场的原因。有了智能语音交互基础之后，我们还要做好精准和个性化的内容和服务，这才是用户真正想要的。

改变用户的使用方式

在智能语音最早进入市场时，用户会觉得比较新奇，当时用户是需要对着话筒，在近讲和安静情况下比较配合才能使用（最初还需要用户先念一段话来训练模型），所以大家觉得语音识别和人工智能技术不靠谱。

最近这几年，随着深度学习技术和大数据的发展，智能语音技术的进步已经超出了很多用户的想象，用户可以无需预先训练，在真实应用场景下实现相对自然的语音交互。现阶段用户对语音交互的接受度在逐步提升，随着语音应用和服务的日臻完善，让用户会逐渐形成习惯，越来越接受这种交互方式，机器则可以通过后台数据的不断快速迭代提高精度，用户就越来越喜欢用。

智能语音，语音唤醒

微信公众号

listenLenze

支持中心：

电话：

传真：

邮箱：

媒介合作：

邮箱：

服务热线：