首页 > 技术杂记 > Sitemap协议规范

Sitemap协议规范

写在前面:今天用到sitemap,把相关协议规范整理了一下,希望对感兴趣的朋友有所帮助 😛
1. 什么是Sitemap协议
Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。
2.Sitemap协议规范的基本要求
(1)Sitemap文件采用.xml格式
(2)Sitemap文件必须使用utf-8编码
(3)可以采用gzip(.gz)格式来压缩Sitemap文件
(4)Sitemap文件未压缩前不能大于10MB
(5)一个Sitemap文件中包含的Url不能超过50000个
(6)Sitemap中Url的优先权的值是一个表示当前站点中Url重要程序的相对值
(7)Sitemap中Url的优先仅的缺省值是0.5
(8)Sitemap中的Url必须是xml安全的(URL’s must be XML Safe (use XMLFormat())
3.Sitemap协议中的标签

4.扩展:Sitemap Index
一个站点可以有多个sitemap文件,对于多个sitemap的站点,需要一个名为sitemap_index.xml的索引文件来指定各个sitemap文件的位置。
关于Sitemap Index需要注意:
(1)Sitemap Index名字必须为sitemap_index.xml
(2)Sitemap Index文件必须使用utf-8编码
(3)Sitemap Index中包含的sitemap数不能超过50000个
(4)Sitemap Index压缩前的大小不能超过10MB
(5)Sitemap Index的标签:

5.例子
(1)sitemap.xml

1
2
3
4
5
6
7
8
9
10
11
12
< ?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9"
 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
	<url>
		<loc>http://example.com/</loc>
		<lastmod>2006-11-18</lastmod>
		<changefreq>daily</changefreq>
		<priority>0.8</priority>
	</url>
</urlset>

(2)sitemap_index.xml

1
2
3
4
5
6
7
8
9
10
11
< ?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

6. 参考资料
http://en.wikipedia.org/wiki/Sitemaps
http://en.wikipedia.org/wiki/Sitemap_index

  1. 2010年4月19日23:48 | #1

    自己搞太难了~还是用现成的好呀~程序都自己带了。不过了解点这方面的知识也不是坏事~

  2. 2010年4月19日23:51 | #2

    @老实人博客 呵呵,我没打算自己搞呀。只是工作中用到这个了,给别人看的,就整理了一下,顺便发了篇文章:) 别忘了小武哥是搞搜索引擎的哦:)

  3. 2010年4月20日03:26 | #3

    我用feed提交的地图

  4. 2010年4月20日08:58 | #4

    @itopdog feed也可以~~ 不过好像支持sitemap的搜索引擎多一些~

  5. 2010年4月20日10:48 | #5

    顶起

  6. 2010年4月20日10:52 | #6

    我也来T楼了 我也有邀请码了 哈哈

  7. 2010年4月20日12:19 | #7

    @老七 去围观老七的T楼:)

  8. 2010年4月21日07:53 | #8

    直接去生成的sitemap!

  9. 2010年4月25日11:58 | #9

    欢迎欢迎啊@Adam

  10. 2010年4月25日12:36 | #10

    @老七 老七,你被忽悠了,上面那个adma是一个垃圾评论。。。这几天一直有这种,让我很崩溃。。

  11. 2010年4月25日13:07 | #11

    额。。。这也是垃圾评论 越来越强了。。@小武哥

  12. 2010年4月25日14:14 | #12

    @老七 是呀,现在做垃圾的也是出新着了。。让人防不胜防啊

  1. 本文目前尚无任何 trackbacks 和 pingbacks.
您必须在 登录 后才能发布评论.