搜索引擎优化魔法书-第22章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
图6…8…8 不同最终页面使用相同 Title
二、Meta 元标签
Meta 元标签位于网页源代码之间,它是用来在HTML 文档中模拟HTTP
协议的响应头报文。Meta 的属性有两种:name 和http…equiv。对于搜索引擎优化人员来说,
我们只重点关注Meta 的name 属性。
Meta 的name 属性主要用于描述网页,对应于网页内容,以便于搜索引擎机器人查找和
分类。其中,对于 SEO 来说最重要的是Description (站点在搜索引擎上的描述)、Keywords
(分类关键词)和Robots (机器人对具体页面进行索引的情况),所以应该给每页完善Meta
值。
2005 年之前,Meta 部分的内容对搜索引擎优化的最终效果能起到很大作用,很多 SEO
人员在 Meta 的Keywords 和 Description 部分泛滥堆积关键词来获得好的关键词排名,造成
很多并不能给用户提供有价值信息的网页在搜索结果中排名很靠前,此举已经给用户的搜索
体验造成了极大的伤害。后来,这种排名作弊行为被搜索引擎察觉,在其新一轮的算法更新
中,搜索引擎淡化了Meta 的Keywords 和Description 部分信息在排名因素中的权重。
虽然Meta 部分的信息没有以前那么重要,其对排名效果影响并不那么大,但是搜索引
擎仍然会把其作为评定网页质量的一个因素,所以我们应该尽可能完善每个页面的Meta 值。
接下来我们就介绍以上三个meta 值的书写方法:
1、Keywords
Keywords 的具体网页源码表现形式为:。
Keywords 向搜索引擎说明你的网页的关键词。每个页面的源代码Keywords 的 content
部分填写 1…3 个关键词,关键词之间请以半角逗号分来。Keywords 部分的关键词应从当前
页面的主要展示内容信息中提炼而来。
第 84 页
… Page 93…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
2、Description
Description 具体网页源码表现形式为:。
Description 告诉搜索引擎你的站点上的页面的主要内容。Description 的content 部分文
字内容最好控制在 100 个字符左右,行文流畅。Description 部分的内容应该是具体页面主要
展示信息的简洁而强有力的概述。
3、Robots
Robots 的具体网页源码表现形式为:。
Robots 的 content 部分文字可以填写的内容为:all、none、index、noindex、follow 和
nofollow 。对于Robots 的content 部分填充内容有如下说明解释:
设定为all:文件将被检索,且页面上的链接可以被查询;
设定为none:文件将不被检索,且页面上的链接不可以被查询;
设定为index:文件将被检索;
设定为follow:页面上的链接可以被查询;
设定为noindex:文件将不被检索,但页面上的链接可以被查询;
设定为nofollow:文件将不被检索,页面上的链接可以被查询。
一般来说,大部分网站并没有太多的内容禁止搜索引擎机器人索引,Robots 的通用写
法都是:。如果想对Robots 做一些个性化的设置,可以
参照上面的相关说明来完善Robots 的content 部分内容。
三、图片ALT 替换文本
图片有一个ALT 替换文本属性,在代码中填充某一个图片的ALT 替换文本信息,如果
这个图片在网页上显示不出来,在该图片的位置会出现替换文本的信息。
图片的ALT 替换文本信息属性原本是考虑到残障人士(如盲人)的访问体验而准备的,
他们在浏览网页的时候很难获取图片中的文字信息,只能通过 ALT 替换文本的描述来了解
图片影像内容。
搜索引擎会把ALT 部分的内容纳入整个页面的文本分析,所以建议在填写图片ALT 部
分的内容时要灵活地在描述中布置合适的关键词。
四、Robots。txt
搜索引擎都有自己的“搜索机器人”(Robots),并通过这些 Robots 在网络上沿着网页
上的链接(一般是http 和 src 链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被 Robots 抓取
公开。为了解决这个问题,Robots 开发界提供了两个办法:一个是robots。txt,另一个是The
Robots META 标签。
Robots META 标签已经在前面有所叙述,这个部分我们将不再说明。
1、什么是robots。txt?
robots。txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部
第 85 页
… Page 94…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录
指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots。txt,
如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那
么搜索机器人就沿着链接抓取。
robots。txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。
一般来说相应的网站就会拥有一个对应的robots。txt 文件,如:
w3。org/
w3。org/robots。txt
2、robots。txt 的语法
“robots。txt ”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or
NL 作为结束符),每一条记录的格式如下所示:
“:”。
在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记
录通常以一行或多行User…agent 开始,后面加上若干Disallow 行,详细情况如下:
User…agent :
该项的值用于描述搜索引擎robot 的名字,在〃robots。txt〃文件中,如果有多条User…agent
记录说明有多个robot 会受到该协议的限制,对该文件来说,至少要有一条User…agent 记录。
如果该项的值设为*,则该协议对任何机器人均有效,在〃robots。txt〃文件中, 〃User…agent: *〃
这样的记录只能有一条。
Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL 可以是一条完整的路径,也
可以是部分的,任何以Disallow 开头的URL 均不会被robot 访问到。例如〃Disallow: /help〃
对/help。html 和/help/index。html 都不允许搜索引擎访问,而〃Disallow: /help/〃则允许robot 访
问/help。html,而不能访问/help/index。html 。
任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问,在〃/robots。txt〃文件
中,至少要有一条Disallow 记录。如果 〃/robots。txt〃是一个空文件,则对于所有的搜索引擎
robot,该网站都是开放的。
3、一些robots。txt 基本的用法:
A。 禁止所有搜索引擎访问网站的任何部分:
User…agent: *
Disallow: /
B。 允许所有的robot 访问
User…agent: *
Disallow:
或者也可以建一个空文件 〃/robots。txt〃 file
C。 禁止所有搜索引擎访问网站的几个部分(下例中的cgi…bin、tmp、private 目录)
User…agent: *
第 86 页
… Page 95…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
Disallow: /cgi…bin/
Disallow: /tmp/
Disallow: /private/
D。 禁止某个搜索引擎的访问(下例中的BadBot )
User…agent: BadBot
Disallow: /
E。 只允许某个搜索引擎的访问(下例中的WebCrawler )
User…agent: WebCrawler
Disallow:
User…agent: *
Disallow: /
F。 常见搜索引擎机器人Robots 名字
表 6…8…1 常见搜索引擎机器人 Robots 名字
名 称 搜 索 引 擎
Baiduspider baidu
Scooter altavista
ia_archiver alexa
Googlebot google
FAST…WebCrawler alltheweb
Slurp inktomi
MSNBOT search。msn
4、robots。txt 举例
下面是一些著名站点的robots。txt:
cnn/robots。txt
google/robots。txt
ibm/robots。txt
sun/robots。txt
eachnet/robots。txt
5、常见robots。txt 错误
A。 颠倒了顺序
错误写成:
User…agent: *
Disallow: GoogleBot
第 87 页
… Page 96…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
正确的应该是:
User…agent: GoogleBot
Disallow: *
B。 把多个禁止命令放在一行中
例如错误写成:
Disallow: /css/ /cgi…bin/ /images/
正确的应该是:
Disallow: /css/
Disallow: /cgi…bin/
Disallow: /images/
C。 行前有大量空格
例如写成:
Disallow: /cgi…bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D。 404 重定向到另外一个页面
当Robot 访问很多没有设置 robots。txt 文件的站点时,会被自动 404 重定向到另外
一个Html 页面。这时Robot 常常会以处理robots。txt 文件的方式处理这个Html 页面文
件。虽然一般这样没有什么问题,但是最好能放一个空白的 robots。txt 文件在站点根目
录下。
E。 采用大写。例如
USER…AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user…agent:GoogleBot
disallow:
F。 语法中只有Disallow,没有Allow
错误的写法是:
User…agent: Baiduspider
Disallow: /john/
allow: /jane/
G。 忘记了斜杠/
错误写作:
User…agent: Baiduspider
Disallow: css
正确的应该是:
User…agent: Baiduspider
Disallow: /css/
下面一个小工具专门检查 robots。txt 文件的有效性:
searchengineworld/cgi…bin/robotcheck。cgi
第 88 页
… Page 97…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
五、链接锚文本
什么是链接锚文本?举个例子解释说明一下:诸如,有一个网站做了个点石的友情链接,
其具体代码表现为 点石互动 ,其中“点石互动”即为
该链接的锚文本。
1、链接锚文本(Anchor Text)描述在SEO 中有什么作用?
搜索引擎可以根据指向某一个网页链接的锚文本描述来判断该网页的内容属性,点石是
一个搜索引擎优化研究团队,所以有很多指向点石的链接锚文本描述为“搜索引擎优化”,
这样会让搜索引擎根据属性投票来给点石在搜索引擎优化的自然排名方面有一个考虑,尤其
是这样的反向链接的质量和数量上升到一定层次时,这种排名优势也就越明显。
很多网站的锚文本的形式诸如以下形式:more、更多、阅读详细信息、点击这里等,这
样的做法没办法让搜索引擎对某一个被链接的网页内容属性有一个好的判断,从而影响网页
排名。
2、链接锚文本(Anchor Text)的优化
每个页面的内容都不同,因此我们在进行关键词策略部署的时候,就应该针对某一个目
标页面有一个关键词考虑。一般来说一个页面的核心关键词在 1…3 个范围(范围太大,关键
词的权重就有可能被稀释),所以我们一般在其他页面做指向该页面的链接的锚文本描述中
就应该布置预先规划的核心关键词,而且锚文本描述的形式应尽量多样化。
六、Sitemap。xml
Sitemaps 协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是,使
用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的 XML 文件。此协议可高度扩
展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上
次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更
智能地抓取该网站。
Sitemaps 协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜
索引擎提交一个 Sitemaps (或多个 Sitemaps ),可帮助搜索引擎更好地抓取你的网站。