虽说如此,但在今天的市场之中,语音识别备受冷落也是一个不争的事实。尤其在智能手机上,语音识别利用率不高,未来普及存在巨大的挑战。
苹果应该恐惧亚马逊?
在“女皇”的报告之中,亚马逊的家庭语音联网设备Echo尽管刚起步,在2015年第二季度的销量仅为20万部,但到2016年第一季度销量已经突破了100万部。
为此“女皇”认为,这一迹象显示出类似Echo的虚拟语音助理或许开始得到大部分消费者的认可。消费者习惯于同这类语音助理进行互动,并在短短数秒内从它们那里得到合理的反馈。由此“女皇”甚至认为,苹果最大的敌人不是谷歌、微软,而是开发出了Echo虚拟语音助理的亚马逊。因为Echo搭载的智能助手能够执行Uber叫车、播放Spotify音乐、在线订购披萨等服务,未来甚至会逐渐掌控汽车等人们出行的重要载体。
“女皇”的判断令人颇感意外,因为在今天的创投市场中,普遍观点是VR和智能可穿戴设备将是下一个计算中心和流量入口,按照“女皇”此言,一个搭载语音识别的工具将挑战现有以手机为主导的硬件格局。
事实上,“女皇”的观点十分新锐,但在笔者看来,“女皇”可能漏算了一点,即语音助理虽好,但目前来看,已经搭载了语音助理的智能手机使用率普遍偏低。看来语音识别目前真正的问题不是如何颠覆手机,而是其自身在手机上使用率就偏低,很难带来革命意义的改变。
2015年12月,市场调查机构TECHnalysisResearch对来自5个国家(美国、英国、德国、巴西和中国)的3012名用户就虚拟语音助手发起调查,调查发现,2015年全球智能手机语音助手使用率达43%,尽管这些语音助手正在不断进化,但是若要成为主流工具依然有很长的路要走,尤其是对于老年消费者。
在参与调查的1024位美国用户中,有超过50%表示并不会使用语音助手,而7%的人不知道语音助手是什么。在全球范围和美国地区,只有43%的参与调查者表示使用语音助手服务。而在年龄段方面,18~24岁和25~34岁之间的用户相对而言使用语音助手的频率要高一点,不过在全球范围内使用该功能的主要还是集中在25~34岁之间。
也正是如此,所谓“苹果应该恐惧亚马逊”的说法可能有些言过其实。目前真正需要解决的问题应该是如何提升智能手机上的语音识别使用率。
语音识别使用率为何偏低?
目前来看,几乎所有巨头都在重视语音识别给交互带来的改变。苹果的Siri、微软的Cortana、谷歌的Google Now,乃至中国市场大多数手机厂商预装的讯飞、百度和与部分手机厂商合作的度秘等,都是目前最主流的语音识别技术。但纵观整个市场,几乎没有哪家能够把语音识别做到真正好用,语音识别在目前的大环境之中也很难产生大的颠覆作用,而这或许是参与调查者语音识别使用率偏低的主要原因。
首先是手机续航。手机续航是影响用户使用语音识别的重要原因之一。iOS9推出之后,苹果把Siri作为重要功能推出,但不得不说的是,Siri带来的便利感远远不能弥补它挑战续航时间所带来的焦虑。浏览国内各个论坛、贴吧可以发现,用户每天都在为自己的iPhone续航时间太短而焦虑,很多教程中开出的药方都是把Siri“一禁了之”。因为Siri平时使用率太低,还带来了续航的负面影响。
事实上,这种类似的操作逻辑在其他手机上同样屡见不鲜。Moto X入华之后,搭载了讯飞旗下的灵犀语音助手,但是很多用户为了拯救Moto X的续航,同样是把语音唤醒关闭,以此换取更长的续航时间。有意思的是,谷歌在产品层面上已经对此做出了改变和反应,即2015年10月,谷歌在Windows、Mac和Linux平台的Chrome64版本中移除了“OK Google”语音激活指令,原因是该功能对于PC用户来说使用率并不高,而移除它又能够提升浏览器工作效率,减少资源占用,提升续航。谷歌此举其实也从一个侧面反映出语音识别对续航的拖累。
其次是“功能鸡肋”。虽说语音识别被寄予了厚望,但目前来看,语音识别很难承担起更为复杂的功能。以笔者iPhone上的Siri为例,更像是一个“花瓶”。用语音设定闹钟相对较为简单,但到了其他相对复杂的场景和功能上,Siri束手无策。以订外卖为例,当对着Siri喊“Hi!Siri,帮我订个外卖”时,Siri是没有任何反应的。微软的Cortana同样如此,而灵犀语音助手充其量是在同样的环境下能问最近的西餐厅在哪里。
目前来看,语音识别能够做到的任务仅仅是导航、定位、定闹钟,顺便遭“调戏”等,而这些功能总体上属于“鸡肋”。
再次是易被干扰。语音助手容易被噪音干扰,这在很大程度上限制了语音助手的使用场景。当身处公交、地铁等环境时,语音助手是无法使用的,即使是在日常生活中,随处存在的噪音也会影响到语音识别的识别率。就笔者的体验,相对抗干扰能力较强的是微软的Cortana,苹果的Siri、谷歌的Google Now、讯飞都相对较弱。其实干扰事小,但一旦出现干扰,其实多数功能都需要重新用语音进行识别。这种反复尝试反而背离了语音识别最初诞生的宗旨,即解放用户双手,给用户带来便利。
第四是心理障碍。罗永浩有一句话说得非常对,“语音交互面临着用户的心理障碍”。就像一个段子所说的:语音识别有两个主要问题,一是如何在嘈杂环境里分辨出人说话,二是如何在安静环境中不让别人以为你很傻。
罗永浩解释的原因,是人们无法容忍一个没有达到智能水平的设备跟他“耍聪明”:从人的正常角度来讲,如果一个软件在你面前装聪明,你会想要去戳穿它,于是它马上就被戳穿了。第二个原因,是在他人面前使用语音交互太尴尬。
有人曾经用这样一个点分析了Siri的体验障碍:语言沟通是快节奏且高效的,文字表达则有一定的延迟。当一个人处在即时状态下的高效表达时,对方以慢速的文字作为回应会让沟通现场显得不协调。这也是为什么语音交互一定要配以声音反馈,哪怕是你对Siri说“给老爸打电话”,在它完成这一指令之前,也一定要回应一句:“正在拨打父亲的电话”。
这不仅是Siri的问题,而是目前语音识别助手的普遍问题。用户在使用过程之中不仅需要面临周围人怪异的目光、泄露隐私所带来的心理障碍,还会存在与一个机器人对话所带来的自我不适。
最后是底层逻辑。单纯语音识别的另一个局限是,识别+自然语言处理本质上是根据文本理解,语音先转换成文本,自然语言理解仅仅针对文本进行,这种模式很难应对语音识别的错误,也无法理解用户意图的模糊性。例如说“三里屯”,到底是去三里屯,还是去三里屯附近的哪家餐馆是不清楚的。因为在识别过程中没有针对交互过程中的上下文建立对话模型和联系历史信息,这类用户意图的模糊是无法由自然语言处理完成的。
人天生倾向于用非精确的信息来交互,因为非精确的信息传输量更大,更方便。机器却是需要对精确信息加以处理,才能让识别和自然语言处理更准确。这是一对天然的矛盾。
面临上述问题,目前语音识别一直都难以取得质变的突破。但是不得不说的是,语音识别依旧是重要的突破方向。核心问题可能依旧在于语音识别的准确性以及服务整合的完整性两个层面。
语音识别助手如果能与合作伙伴的业务深度耦合,一方面给合作伙伴的业务带来用户黏性,同时还可以通过该业务用户的语音语料进行自身技术方案的优化,同时还能提升用户体验,这是目前各家主要的发力方向,也是主要的挑战。