科学的灾难?-第7章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
总之,分类的出发点是一份研究对象的清单(例如我们已知的个体生物的集合,或者个体组成的群体的集合),根据这些对象,我们列一份特性清单,这些特性或许是一些测量数据,也可能是一些已知的概率法则的参数。
很显然,根据认识的状况,根据我们的研究能力,以及我们生来就对各种标准感兴趣的特点,这些特性清单可以有很多变化。
第三章 分类的圈套对象间“距离”的随机选择
当我们用唯一的标准描述“对象”的特性时,很容易就能将同类对象汇聚在一起:按照身高或者按照体重来分类都不成问题。然而,一旦同时考虑两个或多个标准,比如,同时根据体重和身高来分类,一切就都起了变化。不过,为了尽量忠实地描述研究对象,我们显然必须尽可能多地考虑各种标准。
对象i和j是两个个体或群体,比较这两个对象就是比较两个数字序列集合:
Xi〓{X1i; X2i; 。。。 ; Xni},Xj〓{X1j;X2j; 。。。;Xnj}
其中,X1i是对象i的性状 1的测定值。于是我们发现自己的头脑连单单回答下面的基本问题都不行:“对象i更像对象j,还是更像对象k呢?”也可以换一种问法:“i与j,还是与k更相近呢?”
引入“相近”一词促使我们谈到“距离”。任何分类最终都是在确定一个距离,在设想一个空间,在这个空间中,我们所研究的对象以点的形式出现,性质相近的对象与距离相近的点保持一致。这个空间对于数学家来说只是一个多维空间,一个由与我们的研究对象的特性的数量相等的坐标轴所建立的多维空间。我们要确立一个距离,也就是说,根据集合Xi和Xj的元素,采用一种计算方法,得出一个数dij,即i与j之间的距离。
缺乏想像力的数学家们发明了许多计算距离dij的方法,这些方法全都经过论证,但是有时候却得出极为不同的结论。
最著名的方法就是经典的“欧几里得欧几里得(Euclid,生活于约公元前300年),古希腊数学家,以其所著的《几何原本》闻名于世。——译注
距离”,即它的平方等于测定值i和j的间距的平方之和;这就是我们上学时运用著名的毕达哥拉斯定理时所使用的距离。
有时“曼哈顿距离”在曼哈顿(Manhattan),从A地点到达B地点没有直线道路,必须绕道经过C地点;ABC三点构成了一个直角三角形,AB是斜边,AC和CB是直角边,用AC和CB可以表达AB的长度。因此,所谓的“曼哈顿距离”是指在不考虑障碍的条件下,两个地点之间的最短距离。——译注
也十分有用,其中,dij就是这些间距偏差的绝对值之和(这正好与纽约城的两点间距离相符:两条绿阴大道的间距再加上两条街道的间距)。
比较复杂的是“马哈拉诺比斯距离”由印度著名统计学家马哈拉诺比斯提出的马哈拉诺比斯(Mahalanobis)距离,又叫“马氏距离”,表示数据的协方差距离。——译注,它考虑到各种特性之间的联系(一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)。这种计算方法确立于1936年,需要进行测定值之间的方差——协方差的矩阵反演。因此,一直到研究人员们开始使用运算速度快的计算机时,才得以迅速普及。
最受群体遗传学家们赏识的是“余弦距离”(i和j之间的距离就是一个角,这个角的余弦等于各种等位基因的频率的平方根的乘积之和),它为按照基因型进行的群体比较提供了很多方便。
与这些“距离”计算方法并驾齐驱的就是起类似作用但又有不同优缺点的相似系数或不相似系数(卡尔·珀森卡尔·珀森(Karl Pearson,1857~1936),英国统计学家。——译注的著名的人种相似系数就属此类)得到了确定。
列举这些事实只有一个目的,就是为了证明确定距离的定义不是一件普通事。根据所使用的不同公式来计算对象间的距离,同样的数据可能会在某些极端情况下导致“相似性”或完全对立的“不同性”。老实说,在不正常的情况下,这种危险性看起来理论大于现实:使用不同的方法常常得出相近的结论。
选择这样或那样的距离经常受研究者研究习惯或者计算程序的支配,后者比对各个优势的理论分析更臻完善。为了使某些争论更加相对化,记得这一点是有益的。
大多数计算距离的方法在一开始就需要回答一个新问题:应该保持相关的各种不同性状间的平衡吗?怎么做?因为在总体距离的计算中,或者是由于它们的度量更精确,或者是因为它们的离散差更小,也或者它们与预计的更重要的特性相符,某些标准似乎应该比其他标准的影响更大。关于这个问题的争论没完没了。我们似乎无法客观地确定一个性状的“重要性”(请参看索卡尔和斯尼思以索卡尔(Sokal)和斯尼思(Sneath)为代表的数量分类学(又称表型系统学)是当今三大分类学派之一。——译注的作品),以至于许多专家认为宁可让各种参数具有同等的分量,无论它们是什么参数。
这次的问题不是什么刻板的问题;按照所采用的统计学加权,爱斯基摩人可能会比尼洛特人更接近俾格米人(根据身高),或者比俾格米人更接近尼洛特人(根据肤色)。
同理,对比不同群体时,我们也同样可以更注重稀有基因的差异,或者相反地,更关注那些频率中等的基因,或那些很普通的基因,等等;其结果也会随之受到明显影响,正如卡林卡林·凯奈特(R。 Kenett)和鲍馁…塔密尔(B。 Bonné_Tamir)合著,《犹太人群体的生物化学基因信息分析》,《美国人类遗传学学报》; 1979年,341~365页。最近所做的各种不同犹太群体的比较研究所显示的那样。
因此,对于任何分类而言,不仅应该详细说明它的分类标准,而且也应该详细阐述其中每个标准的相对重要性以及使用何种方法。
第三章 分类的圈套类别定义方法的随机选择
由于研究对象即个体或群体的集合存在于某个带有一定距离的空间里,因此需要把它们集中到性质相同或不同的子集中。由此出现了两个缓慢的进程:一个是不断分化的“递减”过程,另一个是逐渐聚合的“递增”过程。
我们的思想的本能活动常常属于递减过程,我们先前提及的动物界就是这样。面对一个由许多对象组成的集合,我们按照一个标准建立了分类群,把具有形态 X的对象放在一边,把具有形态Y的对象放到另一边(例如,白人和黑人)。然后我们按照另一个标准来分析每个分类群,我们可以根据下面的简图画出一棵逐渐分叉的分类“树”:
研究过所有的标准之后,这个进程就终止了。在这个过程中,每个阶段的分类都是所谓的“一元”式分类。因为,从一开始所考虑的特性来看,每个分类都是相同的。结果显然取决于对各种不同标准的研究秩序。不同的秩序可能会产生性质全然不同的类别。因而这些类别是在标准的秩序中先天认可的等级的结果,而远非事物的自然反应。为了减少这种随机性,分类学家威廉姆斯(Williams)和朗贝尔(Lambert)主张优先考虑那些与其他性状集合有关并且计算简单容易掌握的性状秩序,而这又是一种随意性的态度。
从理论上看,通过一种总体距离来考虑每个阶段的性状的集合,可以无须创建一元式类别直接进行“递减”分析:选择要分类的n个对象的分布距离,其中n1个对象属于一个类别,那些n…n1 个对象属于另一类别,使n1个对象间的距离n1(n…n1)之和为最大值。
但是为了选择这样的分类,就应当计算所有可能的这种分类的距离之和。而这些分类的数目为2n…1…1,也就是说,如果n=50,其数目大约有100万亿。而这种运算必须还深入到分类树的各个分支的各个阶段,即使运算速度最快的计算机也无法在这样的条件下完成对数十个对象的分类。因此,当我们想像一下只能够凭直观来进行这样的分类时,我们实在太失望了。
所以,最常用的自动分类方法不是递减法,而是与我们自发的本能方法相反的递增法:把同类或相似对象聚合为类别,这些不同的类别又与其他聚合在一起的对象或类别作比较。这个过程可以通过下面的简图表示出来。
最相似的对象a和对象b 被分到一个类别 f; 接着类别 f 和最接近f的对象 c 被分到另一个类别 g……
完整地画出这棵分类树的渐进运行线需要经过很多的步骤,分类树的主枝不是以树干为根基,而是从最末端的枝杈开始。我们可以在斯尼思和索科尔(1973年) 等书中找到部分相关的论述。按照不同的计算方法,所得结果可能极为不同。在实践中,研究人员(他们通常不怕滥用计算机)借助于不同的方法来分析他们的数据,根据参数确定集合,再变换这些参数研究同样的方法,然后画出所得的分类树,并保留他们认为“合理”的那个或那些分类树。最终会达到接受一种先验观点并用大量的计算来巩固这种观点。
不可否认的是,这些计算常常能够从一个全然乱七八糟的数据的集合里分离出一个结构,明确一些组合,否决其他的组合。这些计算构成了一种能让我们更好地“看待”现实的工具。但是仍然得意识到这个工具的局限性,尤其要避免因为数学更深奥难懂以及计算机的使用更昂贵就对结果怀有无比的信心。
现象树与系谱树
无论使用什么方法,所得的分类树都是一些“现象”树,也就是说只考虑被研究对象(或直接或间接地)提供的性状分类树。
当这些对象是生物或者生物群时,我们知道它们有一个系谱,即直系亲属的传承史。我们能根据它们的分类来重现这一历史,亦即绘出这棵系谱树吗?
必须的原始假设是因为两个个体或者两个分类群之间有着更多的家系联系,即有着更为密切的结合关系,而使两者间呈现出更大的相似性。
至于那些从定义看来自双亲的有性生物,一个关键性的障碍立即出现了:以我们的定义而言,它们的系谱是一个网络而非一棵树。术语“个体系谱树”完全不合适,因为我们只有将时间顺序颠倒过来,把最新出现的个体作为树干,把最古老的祖先视为这棵系谱树的枝杈,才能绘出这样的系谱树。
对系谱树的研究只对一些逐渐分化却没有任何融合的个体分类群才有意义。这个简图就是物种在演变过程中逐渐分化的简图,因为每个物种都因生殖隔离屏障的存在而得到确定(至少是动物,因为一种植物或微生物可以通过另两种植物或微生物的杂交创造出来,这就导致了一种“网状”演变,而不是“树状”演变)。
试图重建物种分化史的研究随着生物化学的进步而逐渐增多,科学家们可以比较不同物种所含的相同的蛋白质(血红蛋白; 细胞色素……),一直发展到比较它们的最细微层次,即构成蛋白质的氨基酸序列。古生物学的数据与生物化学数据的汇总结合逐渐表明可以把这视为相关学科的一次辉煌成功。
这个成果可能会引导某些研究者不太谨慎地根据现象树就得出系谱树的结论,而根据各种形态特性或遗传特性来对当今的人类进行分类,试图定义“人种”概念并说明人种分化历史的做法正属此例。
第三章 分类的圈套人种的定义
事实上,种族的定义,最初是建立在其表面特性上,没有考虑到可世代遗传的真正的生物因素,即基因。现在不再像19世纪那样,根据人的表面性状即表型来区分人群,而是根据他们的基因型进行分类。最近出版的遗传学著作里提到了下面这个公认的关于种族的定义:“一个种族就是一个共同基因数目极多的个体的集合,这些个体可以根据这些基因与其他种族相区别。”(毛蒂尔斯基和沃热尔毛蒂尔斯基(Motulsky)和沃热尔(Vogel)曾合著《人类基因》等作品。——译注,1979年)
我们还要使这个定义具有实质内容,即明确什么基因能辨别“个体的集合”。
正巧,肤色这个曾作为最早的原始分类标准的性状就遵循一种精确的遗传学决定论。事实上,与此相关的是数量而非颜色。深色皮肤是由于一种色素,即黑色素的存在造成的:黑色素存在于黑人的皮肤,在白种人或黄种人的皮肤里却没有或者数量很少。这种遗传构造的差异可以通过自然选择效应得到解释,即根据紫外线的照射强度。骨骼的钙化必须有维生素D(缺乏维生素D会导致佝偻病),而维生素D在紫外线的光照下在皮肤里生成,如果没有黑色素,紫外线会轻易穿透人体的肌肤。在欧洲以及北亚和东亚地区,紫外线不是那么强烈,缺乏黑色素的个体享有一种强选择性优势,生成黑色素的基因逐渐就消失了(然而这一解释却与几个特例相矛盾,如肤色很深的爱斯基摩人和俾格米人,他们生活在地球的最北端或者大森林里,几乎没有什么紫外线的照射)。因此,第一种分类法根据负责合成黑色素的基因(科学家们对这些基因尚了解不多,但是可以估计它们的数目为4对或5对基因,也就是说位于4个或5个位点上的基因。术语“位点”指一个染色体所处的位置,支配一种基本性状的基因就位于此)而将人类分为两大分类群,把“黑种人”群体与“白种人”、“黄种人”群体区别开来。
另一个遗传性状同样可以把人类分为两大分类群,这就是持久的乳糖酶。
对于大多数哺乳动物来说,奶里含有一种碳水化合物,即乳糖。哺乳动物的消化需要一种酶,即乳糖酶。在哺乳期间,这种乳糖酶的活动频繁密集,之后就降到一个极低的水平,这就造成了成年哺乳动物对乳糖的不耐受性。相反地,在某些人类群体里,乳糖酶的活动在人的一生都始终保持着较高的水平(为新生儿的75%),并且不存在任何的乳糖不耐受性。这种似乎与一对基因有关的性状在北欧的居民中十分普遍,在南欧稍少,而在亚洲和非洲则十分罕见(我们可以设想一下这个事实对某些人类群体的健康状况的改善计划所产生的后果。适合于欧洲人的不一定就适合于亚洲人或非洲人)。这一次是根据相关基因的频率将人类划分为两个分类群,即欧洲人和非欧洲人。
最后,让我们来研究众所周知的遗传机制的两个生物特性,即猕抗原系统和人白细胞抗原免疫系统。
这种猕抗原系统是受到一些位于3个位点的基因所支配,并且每个位点都包含有两类基因(假设我们忽略一些少见的不同变体),因此有8种可能的组合。其中的一种被称为R0只在黑非洲以高频率出现;另一种被称之为r; 在亚太地区十分罕见,而在非洲和欧洲一个又一个群体中出现频率则很高而且又显著地恒定不变。
人白细胞抗原系统与