搜索引擎优化魔法书-第15章

小说：搜索引擎优化魔法书字数：每页3500字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

　　　　目前，主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份：通过　

DNS　反向查询找出搜索引擎机器人IP　地址对应的主机名称；用主机名查找IP　地址以确认该　

主机名与IP　地址匹配。　　

　　　　首先，使用DNS　反向查询（Reverse　DNS　Lookup），找出机器人IP　地址对应的主机名　

称。主流搜索引擎的主机名称通常情况下应是这样的：　　

　　　　　Google　　　　：　主　机　名　称　应　包　含　于　　　　　　　　　　　　　googlebot　域　名　中　，　如　：　

　　　　　　　　crawl…66…249…66…1。googlebot；　　

　　　　　MSN　　　　　　：　主　机　名　称　应　包　含　于　　　　　　　　　　　　　search。live　域　名　中　，　如　：　

　　　　　　　　livebot…207…46…98…149。search。live；　

　　　　　Yahoo：主机名称应包含于inktomisearch　域名中，如：ab1164。inktomisearch。　　

　　　　最后，做一次　DNS　查询，用主机名查找IP　地址（Forward　DNS　Lookup　），以确认该主　

机名与IP　地址匹配。由此证明该机器人是合法的。　　

　　　　现在，如果发现一个机器人将自己伪装成合法搜索引擎漫游器，你就可以通过服务器上　

的设置来阻止这个非法机器人。　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　第二节　超链分析　　

　　　　最近几年，许多研究者发现，WWW　　　　　　　　　　　　　　　　上超链结构是个非常丰富和重要的资源，如果能　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第47　页　

…　Page　56…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

够充分利用的话，可以极大地提高检索结果的质量。超链分析技术，是新一代搜索引擎的关　

键技术。　　　

一、基本原理　　　

　　　　超链分析的基本原理是：在某次搜索的所有结果中，被其他网页用超链指向得越多的网　

页，其价值就越高，就越应该在结果排序中排到前面。　　　

　　　　超链分析是一种引用投票机制，对于静态网页或者网站主页，它具有一定的合理性，因　

为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量，超链分析的结果可　

以反映网页的重要程度，从而给用户提供更重要、更有价值的搜索结果。　　　

　　　　搜索引擎，并不能真正理解网页上的内容，它只能机械地匹配网页上的文字。它收集了　

互联网上几千万到几十亿个网页并对网页中的每一个文字（即关键词）进行索引，建立索引　

数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词　

的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索　

关键词的相关度高低，依次排列。　　

　　　　搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站　

点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之　

间的关联程度以及一个站点在整个网络上的关联程度来确定的。　　

　　　　使用超链分析技术，除要分析索引网页本身的文字，还要分析索引所有指向该网页的链　

接的　URL、AnchorText，甚至链接周围的文字。所以，有时候，即使某个网页　A　　中并没有　

某个词，比如“软件”，但如果有别的网页B　用链接“软件”指向这个网页A，那么用户搜　

索“软件”时也能找到网页A　。而且，如果有越多网页（C、D、E、F……）用名为“软件”　

的链接指向这个网页　A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那　

么网页A　在用户搜索“超链分析”时也会被认为相关度越高，排序也会越靠前。　　

二、工作步骤　　

1、从互联网上抓取网页　　

　　　　专门用于检索信息的Robot　程序像蜘蛛一样在网络间爬来爬去，利用能够从互联网上自　

动收集网页的　Spider　系统程序，　自动访问互联网，并沿着任何网页中的所有　URL　　爬到其　

它网页，重复这过程，并把爬过的所有网页收集回来。随着互联网的迅速发展，检索所有新　

出现的网页变得越来越困难。因此，在Wan…derer　基础上，一些编程者将传统的　Spider　程序　

工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从一个　

网站开始，跟踪所有网页上的所有链接，就有可能检索整个互联网。　　　

2、建立索引数据库　　

　　　　由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在　

URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页　

的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面文字　

中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第48　页　

…　Page　57…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

3、索引数据库中搜索排序　　

　　　　当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所　

有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关　

度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页　

面内容摘要等内容组织起来返回给用户。　　

三、搜索效果　　

　　　　搜索引擎　Spider　一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、　

几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反　

映出网页文字的更新情况，增加新的网页信息，去除死链接，并根据网页文字和链接关系的　

变化重新排序。这样，网页的具体文字变化情况就会反映到用户查询的结果中。　　　

　　　　互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排　

序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引，数　

据量达到几千　G　甚至几万G。但即使最大的搜索引擎建立超过20　亿网页的索引数据库，也　

占不到互联网上普通网页的30％，不同搜索引擎之间的网页数据重叠率一般在70％以下。　

人们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的网页。而互联网上有　

更大量的网页，是搜索引擎无法抓取索引的，也是无法用搜索引擎搜索到的。　　　

　　　　使用超链分析的搜索引擎未能收录的网页有：Spider　未能正确处理的网页性质及文件类　

型（如Flash、script、JS，某些动态网页及Frame、数据库）；没有主动登录搜索引擎而且没　

有指向链接的孤岛网页；Spider　访问时因为某些原因正好是死链接的网页；被认为是劣质网　

页而不抓；因为色情、反动、spam　　等问题而不抓的非法网页；需要输入用户名、密码方可　

打开的网页；网站用robots　协议拒绝搜索引擎抓取的网页；搜索引擎还未来得及抓取的新网　

页；go…pher、newsgroups、Telnet、np、wais　等非http　信息的网页。　　

　　　　任何地址中带“？”和“&”号（及其他类似符号）的网页都会被“蜘蛛”程序挡在门外。　

这些网页通常由　CGL、PHP、ASP　　等程序产生，技术上较先进，但不适合搜索引擎的“蜘　

蛛”程序。虽然目前有的大型搜索引擎（如　Google）已具备检索动态网页的能力，但相当　

一部分引擎还是不支持它的。而且即使是能够索引动态网页的　Google，也在多个场合中明　

确表示不保证检索全部的动态网页。　　

四、超链分析技术的应用　　　

　　　　超链分析技术已为世界各大搜索引擎普遍采用，在我国使用该项技术的搜索引擎有：　　

　　　　百度（baidu　）搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网　

中搜索信息，可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的　

互联网信息。百度在中文互联网拥有天然优势，支持搜索　1。3　亿个中文网页，是现在最大的　

中文搜索引擎。并且，百度每天都在增加几十万新网页，对重要中文网页实现每天更新。百　

度除了用超链分析排名外还开展竞价排名。具有网页快照，相关搜索、中文人名识别、简繁　

体中文自动转换、网页预览等功能，还可以进行专业的MP3　搜索、Flash　搜索、新闻搜索、　

图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的唯一持有人。　　　

　　　　引入人工智能的慧聪（huicong　）行业搜索引擎对于商务人士而言尤为有　

用。如果在Google　上输入“化工”，搜索出相关网页有　138　万个，里面包罗万象，有用的、　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第49　页　

…　Page　58…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

无用的混杂在一起，如果用户想找的网站正好排名在上千、上万个以后，无疑面对的是一个　

茫茫网海，找到这个信息十分困难。而在慧聪行业搜索引擎，弹出的首先是一个分类页面，　

列有有机化工、石油化工、精细化工、印刷化工等43　个行业分类的条目，虽然只有　1　万多　

条查询结果，针对性却非常强，用户可以快速找到自己需要的信息，网站与有效用户的见面　

机会大大增强。模拟人类智慧，更好地使用技术来完成更具智慧的搜索，必然是下一代搜索　

引攀技术的发展趋势。　　

五、存在的缺陷　　

　　　　用户在搜索关于某些内容的有效信息时，最大的特点是各异性。利用超链分析技术，用　

户将接受一种根据某种标准进行网页排名的信息服务，从而演变成为各网站想尽办法追求网　

页排名的商业活动。　　　

　　　　海量的网页被收集回来，用姓名、电话、单位名称或网名都可以搜索到许多含有此关键　

词的信息，这些信息有不少侵权、侵犯隐私、泄露机密的信息，尤其是大量论坛的贴子被收　

录，不少贴子言论含有攻击的成分。所以如何及时处理掉这些链接又是搜索引擎急需解决的　

问题。　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　第三节　中文分词　　

一、什么是中文分词？　　　

　　　　英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的　

字连起来才能描述一个意思。例如，英文句子“I　am　a　student。”，用中文则为：“我是一个　

学生”。计算机可以很简单通过空格知道　student　是一个单词，但是不能很容易明白“学”、　

　“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，　

有些人也称为切词。我是一个学生，分词的结果是：“我”“是”“一个”“学生”。　　

二、中文分词的意义和作用　　　

　　　　要想说清楚中文分词的意义和作用，就要提到智能计算技术。智能计算技术涉及的学科　

包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单　

的说，智能计算就是让机器“能看会想，能听会讲”。要想实现这样的一个目标，首先就要　

让机器理解人类的语言，只有机器理解了人类的语言文字，才使得人与机器的交流成为可能。　

再反观我们人类的语言中，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文　

来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过　

渡到短语划分、概念抽取以及主题分析，以至自然语言理解，最终达到智能计算的最高境界，　

实现人类的梦想。　　　

　　　　从现阶段的实际情况来看，英文已经跨越了分词这一步，也就是说在词的利用上已经先　

一步，并且已经展现了良好的应用前景，无论是信息检索还是主题分析的研究都要强于中文，　

究其根本原因就是中文要通过分词这道难关，只有攻破了这道难关，我们才有希望赶上并超　

过英文在信息领域的发展，所以中文分词对我们来说意义重大，可以说直接影响到使用中文　

的每一个人的方方面面。　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　50　页　

…　Page　59…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　中文分词到底对搜索引擎有多大影响？对于搜索引擎来说，最重要的并不是找到所有结　

果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把　

最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对　

搜索结果的相关度排序。在现有三个中文搜索引擎上做测试，测试方法是直接在　Google　

　（google　）、百度（baidu　）、中搜（zhongsou　）　

上以“和服”为关键词进行搜索：　　

　　　　　　

　　　　　　

　　　　　　　　在　Google　上输入“和服”搜索所有中文简体网页，总共结果　507，000　条，前　

　　　　20　条结果中有　14　条与和服一点关系都没有。在第一页就有以下错误：　　

　　　　　　　　“通信信息报：瑞星以技术和服务开拓网络安全市场”　　

　　　　　　　　“使用纯　HTML　的通用数据管理和服务…　开发者…　ZDNet　。。。”　　

　　　　　　　　“陈慧琳《心口不一》化妆和服装自己包办”　　

　　　　　　　　“：：外交部：中国境外领事保护和服务指南（2003　年版）　。。。”　　

　　　　　　　　“产品和服务”　　

　　　　　　　　等等。第一页只有三篇是真正在讲“和服”的结果。　　

　　　　　　　　　　

　　　　　　　　在百度上输入“和服”搜索网页，总共结果为　287，000　条，前20　条结果中有　

　　　　6　条与和服一点关系都没有。在第一页有以下错误：　　

　　　　　　　　“福建省晋江市恒和服装有限公司系独资企业”　　

　　　　　　　　“关于商品和服务实行明码标价的规定”　　

　　　　　　　　　“青岛东和服装设备”　　

　　　　　　　　　　

　　　　　　　　在中搜上输入“和服”搜索网页，总共结果为　26，917　条，前　20　条结果都是　

　　　　与和服相关的网页。　　

　　

　　　　这次搜索引擎结果中的错误，就是由于分词的不准确所造成的。Google　　　　　　　　　　　　　　　　　　　　　　　　　　　的中文分词技　

术采用的是美国Basis　Technology　　（basistech　）公司提供的中文分词技术，百　

度使用的是自己公司开发的分词技术，中搜使用的是国内海量科技（hy

返回目录上一页下一页回到顶部赞（1）踩（2）

第15章

搜索引擎优化魔法书-第15章

你可能喜欢的