复杂性中的思维-第26章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
一条直线,示意在图5.19a,b中。直线的位置是由权重w1和w2确定的。它将阈值元素的激活和末激活的状态隔离开来。
为了求解(“学习”)OR问题或XOR问题,权重w1和w2必须以这样的方式加以调整,使点(x,y)以及值z=1与具有0值的点隔离开。这种线性的隔离对于OR问题从几何上是可能的,但是对于XOR问题是不可能的。一般地说,感知机对于输入模式的分类,局限在线性隔离模式的范围。
这种结果能够容易地被推广到两个以上输入单元和真值。许多问题在线性不可隔离的意义上,类似于XOR。实际上大多数有趣的计算问题都具有这种特征。XOR问题可以由加上一个隐含单元到具有两个输入与输出相关联的网络中来解决。隐含的元素是与输入和输出都关联的(图5。19c)。
当两个输入都是0时,具有正值的隐含中间单元就关闭了。一个0信号到达输出,以及由于在这种情况下阈值为正,所以输出为零。如果两个输入中只有一个为1,隐含单元保持关闭,输出单元由输入和输出之间的直接关联而接通。最后,当两个输入都是1,隐含的单元发放到1,并以负的权重…2抑制了输出的接通。
因此,隐含单元允许某种适当的内部表示。XOR问题已经成为一个在三维坐标体系中用二维平面进行线性分隔的问题,3维坐标系以输出单元的3个输入为坐标。分割是可能的,因为输入(1,1),现在z平面上移动到了点(1,1,1)(图5.19d)。
一台感知机只有一个中间层,它是可以学习的处理元素。对于多层网络,问题是,对于与外界没有关联的多层神经元,产生的错误是不可能直接察觉的。一个错误可以是直接在输出层和其下的中间层之间产生的。
多层神经网络可能具有的表示能力和问题求解能力,取决于学习层的数目和在这些层中的单元数目。因此,对于神经计算机的一个至关重要的问题就是要研究计算的复杂性,因为神经网络的复杂性的增加是从感知机的局限性中走出来的方式。
在4.2节中,我们已经讨论了在多层神经网络中的后向传播(图4.17)。一个后向传播的学习算法使得我们去定义甚至处于隐含层上的一个错误的信号。输出层上的错误是递归地向后传播给下面的层次的。该算法是能够构造具有许多隐含层的网络的,其神经元能够进行学习。比起单层网络来,多层网络在其隐含的层次中可以表示多得多的信息,所以后向传播网络对于克服感知机的弱点是非常有用的模型。
但是,后向传播仅仅从技术上提供了成功的模型,这些模型一般并不与生物进化相类似。它们的权重调整看来很不同于人们所知道的生物突触的行为。计算机技术的目的并不在于模拟大脑,而是在合理的时间内实现的问题有效求解。另一方面,我们必须要放弃孩童式的幻想,认为自然是类似上帝的工程师,进化中他总是在发现最好的解。正如我们在前面的章节已经强调的,自然中没有集中化的控制和编程单元。常常只有局部的解。它们一般并非是“最优”的。
1988年,戈尔曼和西杰诺夫斯基设计了一种馈向网络,并用误差后向传播方法对其进行训练,试图将其用于区别岩石与矿石的声纳系统。要区别出岩石与矿石的回声是相当困难的,甚至用受过训练的人耳也难以胜任,而这对于海底的工程是相当重要的,海底工程需要能区别爆炸矿石和岩石的声纳系统。用于这种目的的网络构造中,输入层有60个单元,隐含层有1-24个单元以及两个输出单元,每一个代表将要进行区别的原型“矿石”或“岩石”(图5.20)。
最初,一定的声纳回声是用频率分析器来处理的,它分解成60个不同的频率带。每一复盖间隔的值域在0和1之间。这些60个值是一个输入矢量的组分,输入矢量给予相应的输入单元。它们由隐含的单元进行变换,导致了两个输出单元之一的激活,这里的值也在0和1之间。因此在一个经过训练的很好调节了权重的网络中,一种矿石的回声导致输出信号(1,0),而岩石的回声则具有输出信号(0,1)。
为了训练此网络,我们必须向它输入矿石和岩石回声的样品。在每一种情况下,输出单元的实际值,都按照相应的输入,进行了测量并与预期值进行比较。其差异是错误信号,引发单元中的权重发生小的变化。用这种梯度下降的程序,网络的权重就缓慢地进行了调整。
戈尔曼和西杰诺夫斯基的矿石-岩石网络是复杂系统对于AI的一种应用。当然,它并没有声称,此系统在模拟人的大脑来区分像“矿石”和“岩石”这样两个概念。但是,我们可以说,这种技术系统也具有某种内部表示,即表示了作为其隐含层中原型矢量的两个概念。在这种限制的意义上,人工系统是有“智能”的,因为它可以完成在人脑情况下用智能来进行评价的任务。人工网络并不局限于对概念进行二元区分。1986年,西杰诺夫斯基和罗森伯格设计了一种叫做NETalk的网络,它已经学会了如何阅读。它采取从英语教科书中形成的字符串,并将它们转化成音素串以输入到语音合成器中。惊人的事实并不是它像小孩似的口吃的声音,在通俗书中它已经被赞为辉煌的成功。NETalk的基本能力是对于若干拼音概念的内部表示。对于字母表中的每一字母,至少有一个音素指定给它。对于许多字母,其中有若干音素需要标记,这取决于词汇的上下文。
西杰诺夫斯基和罗森伯格运用了3层馈向网络。它有一个输入层,一个中间隐含层和一个输出层。尽管后向传播与生物学大脑中“自然地”实现颇为不同,但与其他的解相比,它都表现为最快的学习程序。输入层注视课文的七字符窗口,例如,图5.21a中的短语“The-phone-is-”中的词“phone”。每一个七字符都被29个神经元相继地进行了分析,每一神经元代表了字母表中的一个字母,也包括括号和标点。因此,正好是每一具有29个元素的神经子系统的一个神经元被激活。
输出层包括26个神经元,每一个神经元表示一个拼音组分。对于拼音的位置有6个组分,对于发音有8个组分,对于音高有3个组分,对于标点法有4个组分,对于重读和音节划分有5个组分。于是,从这4组组分中,每一声音都有4种特征。输出层有7×29=203个神经元,与80个隐含层内部神经元联结起来,它又是与输出层的26个神经元相互联结的(图5。21b)。在这些层中的神经元是不联结的。输入和输出层的神经元也是不直接联结的。
隐含层的神经元接收来自203个输入神经元的信号,但是只把26个信号送给输出层。由于内部神经元是阈值单元,具有阈值T1,…,T8,输出是乘以特定权重的,这些积的和的大小决定了此神经元是否激活(图5.21c)。现实中,激活的发生是按照一个连续的“sigmoid曲线”,并非某种数字跃迁。
最初,权重是随机固定的。因此,NETalk始于无意义的结结巴巴的发音。在学习阶段,NETalk运用了特殊的供小孩阅读的课文,其发单是人人皆知的。随机的声音与所希望的声音进行比较,权重由后向传播进行校正。令人瞩目的是,这种程序是一种自组织,而不是一种基于规则的发育程序。对于由实际输出来近似所希望的输出造成的权重改变,仅仅存在一种总体上的要求。对这种课文运行10遍以后,网络已经能够有理解地进行发音。经过50遍以后,就只有5%的错误了。在这一阶段,对于未知的供小孩阅读的课文的发音,错误也只有22%。
今天,像NETalk这样的网络还必须用传统的冯·诺意曼计算机来模拟,因为还没有直接的复杂网络的硬件。因此,每一神经元必须顺序进行计算。甚至在今天,自组织复杂网络的原理还主要是在软件上实现的,而不是在硬件上实现的。然而,我们将谈论“神经计算机”,因为硬件的实现只是一个未来的技术发展问题,有赖于诸如固体材料或光学程序这样的新技术,而不是原则性的理论局限问题。
由神经网络进行的映射,看来是颇为成功的,用于财政、保险和股票交易预见中是有益的。原因在于,对于股票行情的短期预测以混沌时间系列为基础,如果预测的时间周期减少,那么它就变得越来越混沌。
通常的统计程序仅仅在长期预测中才是成功的,它假定了股票的发展可以平稳进行,而又不丢失有关信息。好的统计程序的精确性在60%-75%之间。但是,短期的预测则是颇为有限的。传统的统计程序为了平稳股市的发展,必须要忽略短期预测的基本特性,即经常发生着的小的交换涨落。通常的统计程序中,相关计算因子必须明确给出。一个经过良好训练并适当设计的神经网络能够识别出关联因子,而毋需明确的编程。它能够以自组织的程序权衡输入数据并减少预测的错误。而且,它可以采取改变系统环境的条件,而不像计算机程序必须由编程者明确改变。为了设计一个用于股票预测的神经网络,必须对股市数据进行二进制编码使之作为输入数据。输入矢量的构成中,包括若干分矢量,它们代表着交换量,从昨天来的绝对变化,变化方向,从前天来的变化方向,以及与昨天相比的大于1%的相关量。如果输入矢量具有固定的长度,例如40个单元,那么分矢量的长度可以有些不同,依赖于它们所希望的相关。该系统可以有两个输出单元。左边单元的激活标志了股票值的减少,而右边单元的激活则标志了增加。
在学习阶段,网络中输入的是一定时期实际上的每天的交换率,例如从1989年2月9日至1989年4月18日。以这种学习数据为基础,该网络对于后面19天的发展进行预测。预测结果与实际上的曲线进行比较,以测量该系统的精确性。已经用后向传播方法对于几个多层结构进行了考察。它们以自组织方式发展起来对于预测特定的总体启发性。例如,如果一次预测接近该日期以后某天的实际值,那么错误就是相对小的。这种拇指规则的启发方式,在于这一事实:行情趋势的变化比起它保持不变来是更为不可能的。图5.22a,b示意了,预测曲线(+)和对于银行(merzbank)、公司(Mercedes)的实际股票行情曲线(-)。
显然,后向传播的馈向网络在技术上非常有趣,尽管它们看来与生物大脑中的信息处理没有多少相似性。在4.2节中,我们已经分析了具有反馈(图4.8b)和霍布类型学习(图4.9a)的霍普菲尔德系统,它显得也是生物大脑的工作方式。在均匀的布尔神经元网络的情形,神经元的两种状态可以与处于外磁场中的电子自旋的两个可能值联系起来。一个霍普菲尔德模型是一个动力学系统,与金属退火过程类比,将它看作是一种能量函数。由于它是非增的单调函数,系统进入局部能量极小值,相应于局部的稳定稳恒态(不动吸引子)。
因此,霍普菲尔德系统的动力学演化可以相应于精神认识。例如,一个代表字母“A”的始态噪声图像向代表正确图像的终态演化,它用若干个例子来对系统进行了训练(图4.9b)。物理解释使用了平衡热力学的相变。正确的模式与不动点或平衡终态相联系。一个更灵活的推广是波耳兹曼机,它具有非确定论处理器元的随机网络构造,以及分布的知识表示,数学上相应于一个能量函数(图4.11b)。
关于弛豫的一般思想是,一个网络收敛到以局域相互作用为基础的或多或少总体平衡状态。通过反复地修订局部的联接(例如在霍普菲尔德系统通过霍布学习策略),网络作为一个整体终于弛豫地进入了稳定的、优化的状态。我们可以说,局域相互作用导致了协同寻求,它不是受指导的,而是自组织的。一些网络对于精神类型的活动运用了协同寻求策略,例如,对于寻找可能的假设。设想竞争假说的一定范围由神经单元来表示,它们可以激活或抑制自己。于是该系统就离开了不太可能的假设,而奔向更可能的假设。
1986年,麦卡洛克和拉梅尔哈德把这种认知解释运用于模拟两可图的识别。两可图是在格式塔心理学中为人们所熟知的问题。图5.23a示意了一个协同寻求的网络,模拟识别尼克尔立方体两种可能的取向之一。每一单元就是一种涉及尼克尔立方体的一个顶点的假设。缩写是B(黑)、F(前)、L(左)、R(右)。U(上)、L(下)。假设网络由两个联接的子网络构成,每一子网络相应于两种可能解释之一。
不相容假设是负的联接,一致性假设是正的联接。权重的分配使得2个负的输入与3个正的输入格均衡。每一单元都具有3个正的相邻联接和2个竞争的负的联接。每一单元都接受来自激发的一个正的输入。要寻求的假设子网络是最适合于输入的网络。微小的涨落(观察者特定视野的某个小的细节)可以决定哪一种长期的取向被观察到。
为使网络的动力学形象地表示出来,假定所有的单元都是关闭的。然后,一个单元接收了一个随机的正值输入。网络将向一个子网络的所有单元都被激活而所有其他网络的单元都被关闭的状态变化。在认知解释中,我们可以说,此系统已经弛豫地进入了尼克尔立方体两可图左面和右面的两种解释之一。
图5。23b示意了3种不同的演化模式,它们敏感地依赖于不同的起初条件。环路的大小表明每一单元的激活程度。在第3种变化中,达到的是一种决非处在平衡态中的未确定的终态。显然,这种网络的构造原理是协同计算、分布表示和弛豫程序,这是人们在复杂系统动力学中所熟知的。
过去已经提出来许多人工神经网络的设计。它们是受到不同的原理如物理学、化学、生物学、生理学的启发,有时只是出于技术的目的。复杂系统探究方式的共同原理是什么?在前面的章节中,协同学引进了作为处理非线性作用复杂系统的跨学科方法论。对于推动从许多科学学科中确立的共同原理来建立特殊复杂系统的模型,协同学看来是一种成功的自上而下的策略。其主要思想是:复杂系统整体状态的形成可以解释为,处于远离热平衡的学习策略中系统元素的(宏观的)相互作用的演化。整体的有序状态解释为相变的吸引子(不动点、周期、准周期或混沌)。
例如,模式识别被解释为类似于应用在物理学、化学和生物学中的演化方程的相变。我们获得了一种跨学科的研究纲领,它使我们把神经计算的自组织解释为由共同原理支配的物理的、化学的和神经生物学的演化的自然结果。正如在模式形成的情形下,一种特定的识别模式(一张原型的脸)用序参量描述为一组所属特征的集合。
一旦其中属于该序参量的部分特征给定了(例如一张脸的一部分),序参量将完成所有的其他特征,所以整个系统是作为联想记忆发生作用的(例如给出脸的一部分使脸面根据贮存的原型脸重建出来)。按照哈肯的役使原理,识别出来的模式的特征相应于模式生成期间受役使的子系统(图5.24)。
如果将作为原型学习的一小部分脸部提供给一