夸克与美洲豹 作者:[美]盖尔曼-第8章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
不同的东西。事实上,正是系统或比特串的那些非随机性的方面,才促成了它的有效复杂性。有效复杂性,大致可以用对该系统或数串的规律性的简要描述长度来表示。原始复杂性与AIC 不能表示我们通常所理解的“复杂性”,因为它们指的是对整个系统或数串的简要描述长度,其中包括它所有的随机特征,而不只是其规律性。
为了更加全面地讨论有效复杂性的概念,首先必须详细研究复杂适应系统的性质。我们将看到,除了一些别的东西之外,它们的学习或进化还要求有一定程度上识别随机性与规律性的能力。因而一个系统的有效复杂性,与正在观察该系统的复杂适应系统所作规律性描述有关。第五章 儿童学习语言
我女儿学说话的时候,她最初说的几句话之一便是“爸爸坐车—车”(Daddy go car…car),这是每天早晨我去工作时她都要说的话。这句话是关于我的,对此我感到受宠若惊,而且使我高兴的是,她真真实实地在说话,尽管她的英语还需要下一番功夫。只是在最近我才突然觉得,那句话中已经具有某些英语语法的特征。就拿语序来说吧,在英语中,主词总是位于动词之前(但在另一些语言,比如威尔士语、夏威夷语和马拉加西语中,就不是这样)。主词和动词的顺序是对的,词组“车—车”的位置也对了。在合乎文法的英语句子“〔爸爸〕〔驾车〕〔走了〕”(〔Daddy〕〔 isgoingaway〕〔inhiscar〕)中,三个要素与儿童的近似语言中的完全一样。
当我女儿逐渐长大时,她的语法自然而然地不断完善起来。像别的小孩一样,几年之内她就能说一口准确的英语了。只要有一个会说某种特定语言并定期对小孩说那种语言的照管人,比如父亲或母亲,那么,任何正常的儿童都会在几年的时间里学会正确地说该种语言(当然,一些美国人认为这种说法不适用于美国的许多高中学生)。事实上,大多数小孩都能够像母语那样准确地掌握2 至3 种语言,尤其是当2 个或3 个照管人中的每一个,习惯上都只跟小孩正确地使用其中的一种语言的时候。即使小孩只通过一个人接触某种语言,情况也仍然如此。但是,对于某种给定的语言,小孩怎么知道哪些造句法合乎文法,哪些不合乎文法呢?
假设总共只有5 万个可能的句子,母亲和孩子花上1000 天的时间来系统地试验这些句子,每天检验50 个新句子。每当小孩说一个句子,母亲就耐心地指出“好句”或“病句”。如果我们采用这样一个荒谬的方案,再加上小孩完美的记忆力,那么3 年以后这个小孩就能准确地知道那5 万个句子中哪些是合乎文法的。
计算机科学家可能会说,这个假想的小孩在心中建构了一个“查阅表”,上面列有每个候选的句子及它们的归类,即“合乎文法”还是“不合乎文法”。无疑,一个实际当中的小孩是不会准备这么一个表的。首先,5 万个句子太少了。
任何人类语言中,都有无限多个可能的句子,每个句子都可以包含任意多个子句,每个子句又可以包含多个修饰性字、词。句子长度只受到可利用的时间及说话者与听话者的耐心和记忆力的限制。而且,通常有数千个字可供我们使用。一个小孩不可能听到或试图说出每个可能的句子,并将它收入到查阅表中。可是在实际的学习过程之后,小孩却能够辨别出一个以前从未听到过的句子是否合乎文法。
儿童们必定会建构一套用于判断什么合乎文法及什么不合文法的临时规则,尽管他们并不是完全有意识地这么去做。然后,他们不断听到语法正确的句子,并偶尔发现一个病句后将它改正过来,他们不断地更改那套规则。同样,他们也未必是完全有意识地这么去做。例如,一个小孩可以很容易地掌握动词过去式的规则变化:加“d”或“ed”,然后,小孩偶然碰到“sing”和“sang”(一个变化不规则的动词的现在时与过去式),于是他或她对那套规则进行修改,使之能包含这一例外情况。然而那套修改后的规则可能促使小孩说“bring”和“brang”,最终他或她得将它们修改为“bring”和“brought”。依此类推,逐渐地,这套内部规则不断得到改进。小孩正在心中建立起一种语法规则。
一个正在学习语言的小孩确实在使用着语法信息,这些信息是几年中从合乎文法的句子与病句的例子中得到的。但是小孩不会去建立一个查阅表,而是以某种方法将这些经验压缩成一套规则,一套即便是对以前从未遇到过的新句子也适用的内部语法。
但是只凭从外部世界,比如从父亲或母亲那儿获得的信息就足以使小孩建构这样一套内部语法吗?诺姆·乔姆斯基(NoamChomsky)及他的门徒对这一问题给予了否定的回答。他们认为,小孩还必须天生就拥有大量适用于任何自然人类语言的语法信息。在生物进化过程中获得的,学说语言时具有某些语法特征的天生倾向,似乎是这种信息唯一可能的来源。这里所指的某些语法特征是所有自然人类语言共有的。每种语言亦包含一些非进化所得的附加特征。尽管有些附加特征可能像天生所具有的那些一样具有普遍性,但大部分都随语言的不同而不同。这些附加特征是儿童必须学会的。语法作为一个部分图式
当然,一个陈述句是否合乎语法,多半与它陈述的内容是否属实无关。操英语者都知道,“绿色的天空中出现紫色和黄色的条纹。”这样一句话在语法上是正确的,尽管这种说法至少在地球上来看很不真实。但是,影响一个人在某个特定场合中选择某个合乎语法句子的,不只是真实性,还有许多其他的环境因素。
在建构内部语法时,小孩能够有效地区分开语法特征与他们听到的特殊句子的所有其他因素,这些因素有些是随机性的。只有这样,才能将散乱的语法特征压缩成一套容易使用的语法规则。
一个这样做的小孩就显示出了复杂适应系统的第一个特征。他或她把从大量经验中识别出来的规律性的东西,压缩成一个图式,这个图式包含了支配那些经验的规则,但忽略了使用这些规则的特定环境。
然而,语法并不包含语言所具有的所有规律性。还存在发音规则(构成语言学家所称作的一种语言的“语音学”),语意学规则(关于什么合理,什么不合理),等等。因而语法图式不是关于一种语言的全套规则,语法也不是在语言数据流的随意性被去掉以后剩下的所有东西。然而,儿童对语法的掌握是建构一种图式——一种部分图式的极好的例子。
学习语言的过程也表现出在运作中复杂适应系统的其他特征。一个图式很容易发生变化,不同变异形式的采用与废弃,都要经过实践的检验。为了对它们进行检验,必须补充一些细节,比如在建立图式时所丢掉的那些。这是理所当然的,因为,在现实世界中将要遇到的,与最初从中提炼出图式的,是同一个数据流。最后,现实世界中发生的事情关系到图式中的哪个变异形式将幸存下来。
在掌握英语语法的过程中,图式是变化的,例如,用“ed”或“d”来构造动词过去式的规则,要被sing…sang 与bring…brang 之类的例外情形来修改。为了检验这些变异的规则,小孩必须将图式应用于一个实际的句子,从而重现建立图式时所忽略的那种特殊环境。例如,小孩可能说,“我们昨天上午唱了(sang)一首赞美诗。”这句话被认为是合理的。可是如果他或她说,“我带了(brang)一件东西回来给你们看”,那么他的父亲或母亲会回答,“你能让我看你从贝茜阿姨家捉到的蟑螂,我很高兴,但你应该说‘我带了(brought)一些东西回家??’”。这一经验可能促使该小孩试验出一个新的图式,它可以将sing…sang 与bring…brought 都包括在内。(当然,在很多情况下,孩是等别人说话时来检验一个图式。)复杂适应系统与有效复杂性
图3—1 表示了一个复杂适应系统的运作情况。既然复杂适应系统从随机性中分离出规律性,从而得出一个图式来描述和预言新数据流的性质,那么,用图式的长度来定义复杂性也就成为可能。当然,那些数据通常和复杂适应系统正在观察的某个其他系统的运作有关。利用一个图式的长度并不意味着回归到原始复杂性的概念,因为图式不能完备地描述被观察系统的数据流,而只能完备地描述从可利用的数据中提炼出来的规律。在某些情况下,比如语法情形,图式中只包含某种特定类型的规律,而其他规律则被弃置于一边,因此,这种图式是一种部分的图式。
你可以将语法复杂性看作一部语法教科书。大致说来,教科书越厚,相应的语法就越复杂。这与用图式长度来表示复杂性的思想是一致的。每一个引起困难的小小例外情形均使得书的厚度,也即语言的语法复杂性增加。
像通常情形一样,这里存在着诸如粗粒化和共同的初始知识或理解之类的随意性的来源。在语法教科书的情形中,粗粒化对应于教科书所达到的精细度。那么,一套语法如果遗漏了许多隐含规则与例外情况,而只包括不介意出错的旅游者所需的一些语法要点,能算是基本的语法吗?或者说,它能算是一部重要的学术书吗?如果是,那它是一种传统的常见的语法呢,还是刚流行的生成语法(generative grammer)呢?显然,书的厚度与这种区别有关。至于初始知识的层次,我们来考虑一部用英语为说英语者所写的成熟的外语语法。如果这是荷兰语(与英语非常相似且相近),而不是在结构上与英语很不相同的那佛乔语(Navajo)的话,我们就不必引入太多的新语法概念。而对那佛乔语来说,其语法规则应该更长些。类似地,一本写给说那佛乔语的人看的荷兰语语法书大抵要比写给说英语者看的荷兰语语法书更厚些。
即便存在着这些因素,将语言的语法复杂性与描述该语法的教科书的厚度联系在一起,也仍然是合理的。但是,如果有可能看到一个说母语的人的脑子(不断前进的科学技术也许会在某天使之成为可能),并看到语法在那里怎样被译成密码的话,那将更有意思一些。用那种内部语法所表示的图式的长度,可以作为衡量语法复杂性的尺度,这种衡量尺度具有较小的随意性。(自然,这种情况下长度的定义比较微妙,要依赖于语法信息在实际上被译成密码的方式。它们是储存在局部的神经元和神经突触上,还是以某种方式分布在整个神经网络中呢?)
我们将一个系统相对于正在对它进行观察的复杂适应系统的有效复杂性,定义为用来描述其规律性的图式的长度。当图式以某种方式支配被讨论的系统(比如储存于脑中的语法规范着言辞),而不仅仅是被外部观察者,如一本语法教科书的作者使用时,我们就可以使用“内部有效复杂性”(internal effective … plexity)这一术语。从随机性中分离规律性有效复杂性这一概念的作用,尤其当它不是内部有效复杂性时,与进行观察的复杂适应系统能否很好地识辨与压缩规律并抛弃偶然性的东西有关。如果不能,那么,特定观察者的缺点对被观察系统的有效复杂性的影响,比被观察系统本身的性质对它的影响更大。结果,观察者常常是相当有效的,但是有效性的概念却由此引起了深远的问题。我们已经知道,最理想的压缩思想可能会陷入不可计算性的困境之中。除压缩之外,实际的规律识辨又怎么样呢?从数据流中识辨规律性真是一个定义明确的问题吗?
如果从某种意义上说数据流无限地长,比如,在语言或教科书情形中,它如此地广博,以至于构成了一个包括用给定语言所能说出的每个可能的句子在内的典型样本,那么,识辨规律的任务会更容易一些。这里,即便是一条罕见的语法规则,也会在相似的条件下反复地显示出来,从而使人们能将它同纯偶然的不规则变化中得出的错误规则区分开来。(例如,在一篇短的英语文章中,过去完成时态可能不会出现,从而给人造成英语中不存在过去完成时态的错觉。而在一篇很长的文章中,这样的情况就不大可能发生。)识辨某些类型的规律性
许多理论物理学家,如加利福尼亚大学伯克利分校和圣菲研究所的吉姆·克鲁奇菲尔德(Jim Crutchfield),在了解如何从一个无限长比特串的随机性中识辨出规律性方面,取得了很大的进展。他们定义了许多种规律性,并证明了在理论上如何应用计算机来识辨上述范围内的规律性。但是,即使他们的方法也不能提供一个挑出每种规律性的算法,这样的算法根本就不存在。但他们证明了,计算机在比特串中发现属于某类规律性后,能够推断出新的、属于一种更基本类型的规律性的存在,并知道如何识别它们。这被称为“分级学习”(hierarchical learning)。通常,一类规律对应于一组关于如何产生一个数据流的数学模型。假设数据流是一个由随机(至少是部分随机)过程——不妨假设为掷硬币的过程所产生的一个比特串。这种模型一个很简单的例子,是一个有偏抛币序列(a sequence of biased cointosses),其中出现正面(对应于比特串中的1)的概率是0 和1 之间的某个固定值,而出现反面(对应于比特串中的0)的概率是1 减去出现正面的概率。
如果正面出现的概率是二分之一,那么这样一个序列中的任何表面的规律只能是偶然的结果。随着数据流变得越来越长,被这种偶然规律欺骗的可能性就越来越小,而认识到那一序列源自与无偏( unbiased cointosses)抛币相似过程的可能性越来越大。考虑2 比特数串这样一个极端情形。在无偏抛币情形中,2 个比特均为1(一种完美的规则情形)的概率是四分之一。但这样一个序列同样有可能产生于抛掷两面均为人头像(正面)的硬币的过程。因而,产生于无偏抛币过程的一个短比特串常常会被错误地当作一个有严重偏向性的序列。一般来说,一个无限长数据流的好处在于,它大大地增加了分辨各种模型的可能性,这里每个模型对应于一类特殊的规律性。
比有偏抛币序列稍稍复杂一点的另外一种模型,可能有这么个附加规定,即连续出现两个正面的序列应该抛弃。由此导致的规律性,即比特串决不会连续出现两个1,在一个长比特串中可以很容易地辨认出来。一个更复杂的模型可能包含这样一些有偏抛币序列,其中任何一个连续出现偶数次正面的序列将被丢掉。
当一个复杂适应系统接收到一个任意长的数据流时,这里不妨设它具有比特串的形式,它能够系统地搜寻某给定类型的规律性;但是,没有可用于寻找所有各类型规律性的方法。任何被识别出来的规律性都可以进而被整合到一个用于描述数据流(或者产生该数据流的系统)的图式之中。将数据流划分成若干部分——交互信息
在识别一个输入的数据流之中的规律性时,复杂适应系统通常将该数据流划分成具有某种可比性的许多部分,并研究它们之间的共同特征。许多部分所共有的信息称为“交互信息”(mu…tual information),它是规律性的特征。在用某种给定语言写出的一个文