随着手机等移动终端上语音使用逐步普及,键盘、屏幕之外的人机互动方式也越来越重要,技术宅们醉心于如何提高语音中词汇的识别准确度,产品经理们不忍心告诉他们语音输入使用的动力是因为方便而不是技术本身有多酷,有什么比有用、好用更吸引人的呢?
语音技术本身是有较高难度的,不像我们直接感觉到的,提高对口音和发音的辨别能力就能够做到语音识别,如果你在1990年代就用过IBM的语音输入法的话,你会知道,在过去的快二十年时间里,语音识别技术本身的进步并不明显,这里面的道理我们不去做过多的深究,你只需要做一个试验,把自己说的一段话录下来,把录音拆成一个一个的字,放给自己听,你看看你能不能容易听得出每个字是什么?
人与机器的沟通,不是一个具体局部的技术对接问题,而有浓厚的系统相关性。
8年前,刘锋在一次博客沙龙上(当时博客正开始流行),把博客能够做的事情与早期的新闻、论坛、新闻组进行比较,认为博客是在重现它们的能力,当时互联网业务还是以新闻资讯为主的,博客本身只是一个图文发布工具,除了作者权限开放,从内容到形式,与早期的网络业务相比,普通人还难以感觉到过多的惊喜。
后来,刘锋开始把这种比较进一步扩展,将互联网与人脑进行比较,如音视频采集比较人眼睛耳朵的视觉听力,得出“互联网的未来就是一个完整的人类大脑,它将具备自己的视觉、听觉、触觉、运动神经系统”的结论,并形成一本书“互联网进化论”,比较研究的方法是非常可取的,对新事物缺乏系统认知的时候,通过类比能够获得一些未来的轮廓,尽管人脑与互联网未必具有一对一的直接可比性,这些轮廓并不一定与未来完全相符,但能够得出许多有用、实用的结论。
语音能带来什么进步?不能只站在“输入方式”的角度看,语音输入需要机器具有语言理解能力,或者说机器也需要具有类似人脑的智能,语音输入将十几年来互联网人工智能技术推进到大众实用竞争阶段。
整整7年前,我写过一篇智能化的互联网趋势简单列举了互联网人工智能面对的问题,不得不说,这7年来,除了手机硬件计算能力提高了之外,其他问题依然如故。
有人说,人与机器打交道,需要机器做到跟人一样好,实际情况更糟糕,因为人与人沟通是非常无效的,许多公司冗长的会议、街头巷尾面红耳赤的争论可以证明,人们对与机器的沟通要比与人的沟通要求更高,你说一遍人没有听清楚,你或许有耐心再说一遍,而在机器上输入出一次错,许多人就开始摔东西。
悲观地看,完全依赖人工智能技术解决人与机器的沟通问题,道路还非常遥远。
从比较研究有什么启发吗?人并不是只能跟自己一样或者更高级的智能才能打好交道,许多人能够像家人一样与宠物融洽相处,宠物之所以能够得到“亲人”般的地位,不是因为它们能够做到像亲人一样好,而是我们能够把情感转移到它们身上。以自己为中心,外界的,无论是人、宠物还是家具等物品,都是构成我们生活的环境,如果能熟悉这些,我们就愿意乐得其中。
人与机器打交道,如果机器做不到“懂你”,那就让你习惯它好了,人与机器打交道实际是人与人打交道,让它成为是人与人交流的有效辅助,它能让我们更简单地知道周边那些人、那些事是什么,他们正在干什么。
对了,最后一段,你没有联想到“大数据”这个词吧,许多新概念,也是老问题。(文/醒客)