数字化生存-第13章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
了那个地方?问题中的“那”、“她”和“那个地方”是由当时你眼睛注视的方向决定
的。这些问题牵涉到你的眼睛和文件的接触点。我们通常都不把眼睛当作输出装置,但
我们却总是以眼睛来输出信息。
人类能够觉察彼此目光的方向,并且进行视线的交流,这种本领当真神奇不已。想
象一下,站在20英尺以外的一个人有时候直视你的眼睛,有时目光却从你肩膀的上方穿
过,注视着远方。使此人目光注视的方向和你的视线只有不到一度的差距,你也能立刻
感觉到其中的差异。这究竟是怎么回事呢?
你当然不是用三角学的方法算出来的,换句话说,并不是计算另外一个人的视线是
否与你的视线相交。不,其中另有溪跷。你的眼睛和那人的眼睛之间一定传递了一个讯
息,但我们还不清楚个中奥妙。跟踪眼球的运动
总之,我们总是用眼睛来指示物体,当有人问你,某某人到哪里去了,你的回答可
能只是注视着敞开的房门。当你说明要带什么东西时,可能会盯着一个旅行箱,而不是
另一个。这种视线的指示,加上头部的动作,可以是非常有力的沟通渠道。
今天,已经有一些技术可以跟踪眼睛的运动。我最早看到的一种技术,是戴在头上
的眼球跟踪器(eyetracker)。当你读文件内容时,跟踪器会把屏幕上的文字从英文变
成法文。当你的中心视线不断地从一个字移到另一个字的时候,你看到的每个字都是法
文,于是整个屏幕看起来是百分之百的法文。但是,眼球没有被跟踪的旁观者看到的屏
幕,却大约99%都是英文(也就是说,除了戴着跟踪器的那个人正在看的字是法文外,
其他的字都是英文)。
更现代的眼球跟踪系统则采用远距离电视摄像头,因此用户不需要戴任何装置。能
显像的电信会议配置尤其适合进行眼球跟踪,因为用户往往隔着相对固定的距离坐在屏
幕前面,而且你通常都会注视着和你进行远端通信的那个人的眼睛(电脑会知道眼睛的
位置)。
电脑越清楚你的位置、姿势和眼睛的特点,就越容易掌握你注视的方向。具有讽刺
意味的是,这种利用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇
的结构中,即坐在电脑桌前的人身上。
当然,如果你把眼睛(看)和另外一种输入工具——嘴巴(说)同时使用,效果会
更好。
北极星书库|| ebook007/ 5、咱们能不能聊聊弦外之音
对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即
使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然
又聋又哑。这究竟是为什么呢?
电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏
眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我
都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情
吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用
声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,
我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为
什么似乎每个人解决问题的着眼点都落在错误的方面呢?
原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是
受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,
而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不
去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不
停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力
放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)
目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。
我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你
通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使
用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变
这一切。
能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人
说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定
的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方
而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内
的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)
区分开来。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或
养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,
不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在
的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用
完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、
或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,
更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更
丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂
音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些
杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能
力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就
很清楚了,我们必须把口语中的单字,变成电脑可读的命令(mand)。语音识别问题
有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是
指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字
越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如
果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,
念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。
当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统
能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进
一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任
何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两
条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,50
0、5000还是5 个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要
多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时
候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我
的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindow
s)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个
字左右就够了,不需要5 个那么多。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是
过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通
用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个
人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。
如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我
的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电
脑联络。
第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对
外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴
最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声
音,而不是许多单个字的声音。事实上,处理这种连成一片的字音,很可能正是你的电
脑走向个人化的必经过程和必须接受的训练的一部分。
当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分
已经没有多远了。字典里找不到的字
讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,
而且对话中的特点,例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的
意义。
1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别
连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音
中带有哪怕些微的紧张时,系统就会失误。当研究生向我们的赞助者演示这套系统时,
我们希望它表现得完美元缺。结果,由于过度焦虑,作演示的研究生声音绷得紧紧的,
系统也就完全失灵。
几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,
并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器
说话的时候,机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些
声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放
松,而系统的表现也突飞猛进。
这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,
在沟通中才有价值;第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有
以适当的间隔对来话人说“嗯”,来话人会变得很紧张,而且最终会探问:“喂,你在
听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一
个比特的信息:“我在这里”。并行的表达
想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法
语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几
酒吗?”你完全听懂了。接着,这个人把话锋一转,谈起法国的政治来了。除非你能说
流利的法语,否则就跟听外星人讲话一样(而且即便你法文流利,也不一定能懂)。
你可能会想:“还要来点儿酒吗?”是小孩都听得懂的简单法文,而政治就需要更
精深的语言技巧了。不错,但这并不是两段对话的重要区别所在。
当有人间你要不要添一点酒的时候,他可能正伸长了手臂去拿酒瓶,眼睛也正注视
着你的空酒杯。也就是说,你正在解码的信息并不只是声音而已,而是并行而累赘的多
重信息。而且,所有的主体和客体都处于同一时空。这种种条件同时作用的结果才使你
能听懂他的意思。
我要重申,累赘是件好事。并行信道(手势、眼神和谈话)的使用是人类沟通的核
心。人类自然而然地倾向于使用并行的表达方式。假如你只会讲一点点意大利语,和意
大利人通电话将会非常辛苦。但当你住进一家意大利旅馆,发现房间里没有香皂时,你
不会拿起电话,而会直接下楼,走到前台值班员那里,拿出你在语言速成学校学会的所
有看家本领,让他拿香皂给你,你甚至一边说一边还会做几个洗澡的动作。
身在异地时,我们会用尽一切办法,来传达我们的意图,并且解读所有相关信号,
力求索解出哪怕一丁点意思。电脑正是身处这样的异地——人类的土地上。让电脑开口
要电脑说话,有两种方式:重放先前录下的声音,或合成字母、音节或(最可能的
是)音素的声音。两种方式各有利弊。让电脑说话和音乐的制作一样,你可以把声音存
储下来(就像CD一样),然后重播,也可以采用合成的方式,根据曲调,重制音乐(就
像音乐家一样)。
重述先前存储的说话内容,也就回到了听起来最“自然”的口、耳沟通方式,尤其
是当我们存储的是一个完整的讯息时,就更显得如此。由于这个原因,大多数的电话留
言都是以这种方式录制的。当你试图把录好的片段声音或个别单字拼凑起来的时候,结
果就比较不如人意了,因为整体的韵律不见了。
过去,人们不大愿意用预录的谈话来作人机界面,因为这样会消耗电脑大多的存储
容量。今天,它已经不太成问题了。
真正的问题也正是最明显的问题。你必须提前把话录下来,才能运用预录的谈话。
假如你期望电脑说话的时候,不要把名字弄错,那么你就得先把那些名字存储起来。存
储好的声音不能适用于随机的讲话。由于这个原因,人们使用了第二种方式——合成。
语音合成器会根据一些规则,把一串文字的内容逐字念出来(就跟你念这句话时没
什么两样)。每一种语言都有所不同,因而合成的难易度也不尽相同。
英语是最难合成的语言之一,因为我们以一种奇怪而且似乎不合逻辑的方式来书写
英文。其他一些语言,例如土耳其语,就容易多了。事实上,要合成土耳其语非常容易,
因为基马尔在1929年把土耳其语从使用阿拉伯字母改为使用拉丁字母,这样转换的结果,
使声音和字母之间形成了一一对应,每个字母都发音:没有不发音的字母或令人困惑的
复合元音;因此,在单字的层次上,土耳其语简直令电脑语音合成器的美梦成真。
即使机器能够发出每一个和任何一个单字的音,还有别的问题。把合成的字音集合
起来,在词组或句子的层次上,加上整体的节奏和语气,是非常困难的事情。然而这样
做非常重