存档

文章标签 ‘sitemap index’

Sitemap协议规范

2010年4月19日 12 条评论

写在前面:今天用到sitemap,把相关协议规范整理了一下,希望对感兴趣的朋友有所帮助 😛
1. 什么是Sitemap协议
Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。
2.Sitemap协议规范的基本要求
(1)Sitemap文件采用.xml格式
(2)Sitemap文件必须使用utf-8编码
(3)可以采用gzip(.gz)格式来压缩Sitemap文件
(4)Sitemap文件未压缩前不能大于10MB
(5)一个Sitemap文件中包含的Url不能超过50000个
(6)Sitemap中Url的优先权的值是一个表示当前站点中Url重要程序的相对值
(7)Sitemap中Url的优先仅的缺省值是0.5
(8)Sitemap中的Url必须是xml安全的(URL’s must be XML Safe (use XMLFormat()) 阅读全文…