智能语音所遇到的技术难题及解决办法
2018-11-13
智能语音的应用从初期的手机助手形态(语音拨号、语音导航、语音搜索、语音听写等),发展到今天软硬一体的远讲降噪、语音唤醒、声纹识别、语用计算、流式交互等等。
从当前的语音识别技术发展看来,基础理论和技术框架已经基本成熟,目前主要是基于深度神经网络的识别架构,再加上大规模的真实数据训练。目前在手机端的近讲语音识别错误率可以做到3%以内,在电话语音识别错误率可以做到6%以内,基本上接近或超过人工识别的水平。语义理解和知识图谱等认知技术,目前还没有形成通用的技术框架,主要是针对具体垂直领域进行优化,这部分有待突破性进展。
首先是针对专业领域的优化,比如在医疗领域,通常专用词汇比较多,让我们普通人去听的时候可能都写不下来,只有经过专业训练的医生和护士才能准确记录;影视节目查询、商品搜索、路径导航等方面也同样需要做针对性的优化。
其次是相对复杂的口音和噪声环境,包括全国各地的口音和方言、远讲、噪声、混响等,都是比较复杂的。声音传播能量是随距离平方成反比关系的,传播距离增加一倍能量就衰减到四分之一,在五米外采集的语音能量,和在一米采集能量相比就相差25倍,但噪声并没有因为距离而降低,加上距离远之后,房间会出现多次反射和叠加,还会形成混响效果,信噪比会下降很多,都会对识别效果造成影响,这些是需要麦克风阵列结合语音声学模型去解决的问题。
第三是低功耗、低成本、高可靠的问题,智能家电需要满足绿色环保标准,需要确保24小时误唤醒低于1次,尽量不出现误操作,要实现大规模量产出货,还要降低整体方案的成本。面向物联网的智能语音交互方案,如果功耗成本下不来就不能普及,智能手表、手环等依赖电池的穿戴设备,功耗和成本问题就更加严重。
最后是语音交互设计问题,这是语音技术产品化的重中之重,现在的物联网设备,大到汽车、空调、机器人,小到玩具、穿戴设备等,有大有小、有带屏幕和不带屏幕、涉及不同的应用领域,交互方式差异非常大,需要针对性优化语义理解和知识图谱。
语音交互是未来物联网的重要交互手段,这是我们为什么把物联网列为语音技术落地主战场的原因。有了智能语音交互基础之后,我们还要做好精准和个性化的内容和服务,这才是用户真正想要的。
在智能语音最早进入市场时,用户会觉得比较新奇,当时用户是需要对着话筒,在近讲和安静情况下比较配合才能使用(最初还需要用户先念一段话来训练模型),所以大家觉得语音识别和人工智能技术不靠谱。
最近这几年,随着深度学习技术和大数据的发展,智能语音技术的进步已经超出了很多用户的想象,用户可以无需预先训练,在真实应用场景下实现相对自然的语音交互。现阶段用户对语音交互的接受度在逐步提升,随着语音应用和服务的日臻完善,让用户会逐渐形成习惯,越来越接受这种交互方式,机器则可以通过后台数据的不断快速迭代提高精度,用户就越来越喜欢用。
智能语音,语音唤醒