: @5 B" {" `% H2 c; N6 M5 y
Google周期性地公布已设计好的新服务,帮助Web站点管理员处理对站点访问的数据过剩问题或帮助他们捕获更多网络堵塞。其中Google近期支持的一个服务是,通过努力使网虫们能够在站点发现新内容并且通过Google搜索很快得到它们。
$ l8 S. K( J) q4 V6 `, K4 L在文章中,我将给出Google站点当前处理的具体细节,并且提供示例演示如何获得站点图以及如何运行。我使用http://www.allinvites.com作为示例站点,这个站点是我妻子的(我已事先征得她的同意)。正常情况下,我使用假设的站点,但是由于本文的目的,我使用到一个小而生动的站点。
' n, u; w: [5 R# F9 i具体细节0 s8 b* L9 ` @
我已经提到过Google站点图在高层的目标,但是确实还是有很多的服务和警告。首先,Google指出站点图不会危害或帮助站点在Google的队列。实际上,Google已经在站点图FAQ中明确指出:“使用站点图不会影响PageRank(搜索引擎使用的一种网页重要性评估方式,它的值决定了网页在搜索结果中的排名)值,这对于如何计算网页的Ranking值毫无改变。”但是,网页的Ranking值由于以前没有被编入索引而现在被编入Google索引而升高。我的感受是:如果仅仅为了提升网页的Ranking值,则不需要使用站点图。如果最终Google正式指出站点图可以用于此目的或者你想从站点图获取些别的利益,你可以尝试采用这个方法。
+ `; A3 D- X" Y+ C- \Google没有必要为你所提交的所有网页都制作索引。例如,如果在自己的站点提交URL,而此URL在robots.txt文件中是受保护的,则Google的网虫们将尊重在robots.txt文件中的设置而忽略提交给站点图服务器的任务。第二,Google不保证所有提交的网页都得到处理,但是提交的站点图仍会被Google的网虫们所使用以了解站点更多信息。正如Google所说的,向站点图提交信息只会帮助你而不会危害你。0 ~* m& F& V! w& H( N
与其不显眼的潜在下降相比,站点图是一个很好的服务。首先,它甚至对于商业用途都是免费的。尤其对于那些身无分文的流浪者来说,这从来就不是件坏事。第二,站点图的一个要点就是高效的帮助人们更快的获得站点的索引。通过站点图比通过手工提交可以更快发现和处理你的网站、新的内容和内容的变动。
4 P0 ?) z* L( k8 c最后也是最重要的,Google提供了站点图相关的报表工具可以收集到如下的很多方面的信息:
' T; V5 c% d: E: H+ l( T6 J- q- 查询统计:提供Google搜索用到的和返回关于你的网站的有关查询信息。
- 处理统计:提供关于处理成功或失败的信息和PageRank信息。
- 网页分析:提供站点的页面类信息例如何种类型网页和网页编码等总结信息。
- 索引统计:告知站点是如何被索引的,例如,可以获得一个关于站点的索引列表,一个站点的链接列表,并且可以查看 Google关于你的站点存储信息和其它更多的信息。
使用Google站点图 现在你对于Google站点图能帮你解决那些问题有了更好的理解了,那么,就让我们进入到如何使用这种服务中来吧。 充分利用站点图有/ddimg/uploadimg/20060707/0905175.jpg个步骤: - 为你的站点创建站点图。
- 将创建好的站点图添加到Google帐户。
- 使用Google的报表和统计工具。
创建站点图 Google的站点图服务用到的站点图创建是采用Google自定义的开源的使用XML语言的“站点图协议”来给服务器提供你的站点关于设计方面的信息。Google甚至给你提供Google站点图产生器,它可以很有趣的为你创建现成的Google站点图。 如果要满足下面几项要求,则使用Google站点图产生器是你最好的选择: - 可以在网络服务器上运行Python2.2+脚本。
- 通过某些方式可以向网络服务器上传文件。
- 如果要使用access日志产生站点图,必须知道这些日志的编码方法。
开始时,需要有Google站点图产生器。因为我的示例站点建立在Linux服务器上,所以下载了产生器的“tar.gz”版本。我的主机支持运行Python脚本程序并且我使用的是Python 2.2./ddimg/uploadimg/20060707/0905175.jpg版本。 将下载的命名成sitemap_gen-x.x.tar.gz文件放置于服务器的某个位置。我将下载的文件放在示例位置的根目录上。下一步,使用“gunzip”命令解压。 Gunzip –dc sitemap_gen-x.x.tar.gz | tar xvf 文件的内容将被解压到去掉“.tar.gz”后缀名的文件夹中。 在此文件夹中,找到example_config.xml文件 并将其拷贝到config.xml。编辑这个文件,注意下面几个必需(有些是可选)的参数。 - base_url基本_url(必须):你的站点的顶层URL,在我的例子中是http://www.allinvites.com。
- store_into存储信息(必需):路径和文件名将被写入到站点图中,在我的例子中是“/home/alowe/www/sitemap.xml.gz”,你不需要预先创建这个文件
- default_encoding默认编码(可选):默认值是UTF-8,如果你的系统上的URL和文件路径需要不同的编码方式,则改变这个值。
- verbose详细信息(可选):默认值是“1”,可以设置成/ddimg/uploadimg/20060707/0905175.jpg到/ddimg/uploadimg/20060707/0905175.jpg之间的任何数。/ddimg/uploadimg/20060707/0905175.jpg提供无诊断的输出,/ddimg/uploadimg/20060707/0905175.jpg提供重要的输出。
- url or urllist(url或urll列表)(可选):用这两个指令之一告诉站点图产生器那个URL应该包含到站点图中。可以在config文件中通过url指令单个列出每一个URL,或者可以使用urllist指令和指向一单独的包含所有需要的URL文本文件来列出所有的URL。在示例中我使用url指令来列出URL,在下文可以看到。如果你采用irllist指令,那么你需要在单独的文本文件中使用url指令。
- url指令包含有一个必需的参数:href.Href参数,正如你所希望的,是一个全路径,包含有你的域,你想要包括的URL。也可以使用可选的属性:changefreq, lastmod, 和 priority.
- Changefreq (从不、每年、每月、每周、每天、每时或一直)用于指示站点图中URL的内容间隔多久刷新一次。
- Use lastmod (ISO86/ddimg/uploadimg/20060707/0905175.jpg1 datestamp format) to identify when content last changed.
- 使用lostmod来标记最近一次更新的时间。
- 使用priority来告诉站点图那些与其它站点图内容相关的特殊URL的相对重要性。例如,值/ddimg/uploadimg/20060707/0905175.jpg.5表示站点图中URL的重要性质有值为1的URL的一半的重要性。这个优先权值可以影响搜索引擎对站点搜索的次序,但是不要认为将每个URL设置成最大值是最有帮助的。这仅仅是告诉搜索引擎你的站点上所有单个的URL具有相同的重要性。它不是被用来比较你的内容与其它站点内容重要性的。
- directory目录(可选):使用这个标记来详细说明在特定的目录中将要包含的URL列表。这个指令有/ddimg/uploadimg/20060707/0905175.jpg个参数:path(路径), url, 和 default_file(默认文件)。当url指令用于提供目录的网络路径时,path路径是目录的全路径名(例如:/home/alowe/www)。使用 default_file指令是告诉站点图产生器你的服务器的默认文件的名字(例如:index.php或 index.html)
- accesslog:使用两个参数:路径和编码,允许站点图产生器为URL解析日志(log)文件
- Filter:使用此指令来包含或派出指定的文件。我将在www.allinvites.com配置文件示例中给出说明。
示例 如上所述,这是我为www.allinvites.com向Google站点图提交的示例配置文件: <?xml version="1./ddimg/uploadimg/20060707/0905175.jpg" encoding="UTF-8" ?>
$ m/ Q$ Y& y3 h- z. A3 M<!--?SITE INFORMATION -->
, P* `0 B7 \ ]1 J! f+ X<site base_url="http://www.allinvites.com/" store_into="/home/alowe/www/sitemap.xml.gz" verbose="1">
. i i9 {. N' ]- x: h- o?<!--?INPUTS -->
w; q+ n; h: N3 D( u: _?<directory path="/home/alowe/www/images" url="http://www.allinvites.com/images/" /> 7 e' P% N8 b; y+ Q! ~3 B& M
?<directory path="/home/alowe/www" url="http://www.allinvites.com/" default_file="index.php" />
, I7 [0 K: j5 u( e9 z?<!--?FILTERS -->
9 K: e3 L0 G4 \?<!--?Exclude URLs that end with a '~' --> ; A9 b5 o( U5 E
?<filter action="drop" type="wildcard" pattern="*~" /> ' x- o" T2 z5 q4 _: n* M& Y' }$ x
?<!--?Exclude URLs within UNIX hidden files or directories -->
! ? {# G+ x! P# U( E0 A?<filter action="drop" type="regexp" pattern="/\.[^/]*" />
! q3 b+ }& |3 b9 ^+ D$ h, x) k- ?0 P</site> 在继续执行之前检查配置文件,使用如下命令: pythonsitemap_gen.py --config=config.xml --testing 当冗余集设置成1的时候,仅仅可以得到脚本程序运行中发生事情的一些概况,如果需要更多的信息,则需要增加冗余水平,下面是例子的输出: -bash-2./ddimg/uploadimg/20060707/0905175.jpg5b$ python sitemap_gen.py --config=config.xml --testing
4 ^) A# L) @( z% TReading configuration file: config.xml
) E9 e8 U# D- o; eWalking DIRECTORY "/home/alowe/www/images/"
% R" B8 U1 K' xWalking DIRECTORY "/home/alowe/www/"+ g; @% B# `6 p1 q( f# F* @+ g3 W0 A
Sorting and normalizing collected URLs.. v) b( n$ B; k
Writing Sitemap file "/home/alowe/www/sitemap.xml.gz" with 77 URLs
% c! f8 P# p7 D1 j( U/ \ WSearch engine notification is suppressed.
) U8 t2 Y+ d7 cCount of file extensions on URLs:
: E/ ^; w2 P `- V w, j2 y5 (no extension)
5 d2 W& b# r1 C7 X, O7 O 1 .css/ i5 O7 z6 L7 [0 q3 h
8 .gif/ S+ r8 p. c+ n' ~0 ~0 K
1 .gz
* p& Y7 C7 ]' o0 B3 ^ 27 .jpg5 N& w' |0 ^( E4 }# E
1 .old
0 l' K# ~/ Z! O1 X' i' M" t 22 .php+ e/ ?8 k+ n' N! d
/ddimg/uploadimg/20060707/0905175.jpg .py
' _% h7 e' I K+ d/ T 2 .txt
' K& O$ L5 D" [2 E5 e 2 .xml
V# Y) q/ j" z: V6 p$ K9 e" Q 5 /
4 p7 O( \( R' p- f5 J4 W$ INumber of errors: /ddimg/uploadimg/20060707/0905175.jpg s. J" J7 t N/ G
Number of warnings: /ddimg/uploadimg/20060707/0905175.jpg 另外:Python脚本程序不能利用除了"config", "testing"和"help"参数之外的其它的参数。使用“config”指令是告诉脚本程序配置文件的名字,使用“testing”指令是在程序运行之前测试脚本的错误。 正如你所看到的,这里没有任何错误和警告。如果接收到错误信息,先更正配置文件然后再测试脚本,当测试到没有错误的时候,则可以删除“testing”指令,运行脚本程序了。 在Google站点图帐户中添加新的站点图 在向站点图帐户中添加新的站点图之前,必须用Google注册一个帐户。一旦注册成功则可以访问站点图的登录主页进行登录。图A是个漂亮而柔和的但是已经完成的页面。我想在你登录成功后演示这个页面。单击“Get started with Google Sitemaps”下面的“continue”按钮,开始运行Google站点图程序。 |