存档

文章标签 ‘搜索引擎’

从技术型博客的周末效应说起

2010年6月12日 20 条评论

今天,观察了一下这一段时间以来,从搜索引擎到我博客的来的流量,发现一个很明显的规律:从周一到周五来自搜索引擎的流量相对比较稳定,到了周六、周日,都会有比较明显的下降,下图是截取的最近三周的从谷歌来的流量的统计,数据来自CNZZ。去掉今天的统计(因为今天到目前为上还没有完全统计出来,所以数据不具有可对比性),看前面三周的统计,”周末效应”还是十分明显的。下面来分析一下导致这种效应的具体原因。 阅读全文…

Sitemap协议规范

2010年4月19日 12 条评论

写在前面:今天用到sitemap,把相关协议规范整理了一下,希望对感兴趣的朋友有所帮助 😛
1. 什么是Sitemap协议
Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。
2.Sitemap协议规范的基本要求
(1)Sitemap文件采用.xml格式
(2)Sitemap文件必须使用utf-8编码
(3)可以采用gzip(.gz)格式来压缩Sitemap文件
(4)Sitemap文件未压缩前不能大于10MB
(5)一个Sitemap文件中包含的Url不能超过50000个
(6)Sitemap中Url的优先权的值是一个表示当前站点中Url重要程序的相对值
(7)Sitemap中Url的优先仅的缺省值是0.5
(8)Sitemap中的Url必须是xml安全的(URL’s must be XML Safe (use XMLFormat()) 阅读全文…

浅谈如何针对百度做推广

2010年4月15日 26 条评论

今天在群里聊天,空灵调调兄问到如何针对百度做一些SEO,来改善自己博客在百度的收录情况。其实,我不是专业做SEO的,我的博客也不打算写成以网站推广为主题的,我的主题还是技术经验,生活感悟,读书心得的分享。但是,既然答应了人家,要写一篇关于针对百度推广的文章,那就写吧,从一个做搜索引擎的人的角度来写,如何针对百度做网站推广。

通常,每个搜索引擎都对自家的产品的内容加了一定的权,同样的内容,肯定是自己家的产品的排在前面。举个例子,百度对百度知道,百度百科,HI百度中的内容,通常都排得比较靠前;搜搜对搜搜问问,搜搜百科,腾讯网中的内容,排得比较靠前。谷歌的结果相对比较公平。

了解了上面的的基本原理,那我们就可以针对上面的特点,来针对百度做推广,下面我分享几条方法: 阅读全文…

最近的一些想法——关于网站推广

2010年4月7日 7 条评论

做这个网站,严格的说是博客,我的初衷只是想把自己的一些想法,一些技术学习的经验,记录下来,一方面可以当做自己的成长日记,时间长了,积累下来的内容就是一笔宝贵的财富;另一方面,也是想把自己的想法、经验与网络上的朋友分享一下,让大家不再走自己走过的弯路,因为,说实话,做技术的经常会遇到各种各样的问题,如果全部由自己来一点点摸索,实在是有点低效率,有时候大家遇到的问题都是共通点的,如果别人有了解决方法,那么自己也再没有大的必要去花时间在这上面的,这时候就需要拿来主义了。这个网站是09年的5月16号正式建立的,再一个多月就真正一周年了。在过去近一年的时间里,对每一篇文章,都是我自己原创,虽说随着自已的成长、阅历的丰富、经验的积累,有时候看自己以前写的一些内容,会感觉到有些稚嫩,但是,看着自己一点点的进步,一步步的成长,还是觉得很欣慰。 阅读全文…

谷歌真的走了

2010年3月23日 2 条评论

早上起来,晴天一声闷雷,谷歌宣布退出中国市场,已经关闭google.cn(g.cn)的服务,并把用户请求重定向到谷歌香港google.com.hk。下面是今天谷歌的主页,请注意我用红色框框赶快来的两个部分,这两点说明了什么,不用我多说。
阅读全文…

搜搜与百度、谷歌比,有什么不同?

2010年3月10日 9 条评论

以前,老是有身边的朋友问我,你们搜搜与百度、谷歌相比,最大的不同是什么?其实,我心里对这个问题的答案很模糊,因此,只能给朋友一个很模糊的回答,大的方面都差不多吧。于是朋友继续追问,如果都差不多,那你们拿什么跟人家去竞争呢?互联网是一个马太效应相当明显的领域,你没有比百度、谷歌有更鲜明的特点,怎么去跟已经很成熟的它们去竞争呢?这个问题的确又难住了我,我又只能给朋友一个模糊的回答,腾讯的QQ是一个很强大的平台,借助这个平台,搜搜也应该会有所做为的。
阅读全文…

2010年1月互联网记事

2010年1月16日 4 条评论

过去的一周,中国互联网发生的变化,无一不让每一个网民震惊:

(1)1月12号,星期二,百度被黑,服务停止了足足有5、6个小时。

(2)1月13号,星期三,谷歌中国在官方博客中声明,考虑退出中国。

(3)1月14号,星期四,CCTV低调推出自己的搜索引擎(http://search.cctv.com)测试版。不过目前只限于搜索cctv.com站内的内容。 阅读全文…

“暗网”信息的抓取(2) (Crawling the Hidden Web)

2009年9月20日 没有评论

写在最前面:《“暗网”信息的抓取(1) (Crawling the Hidden Web)》中,讲述了一些关于暗网信息抓取的基本理论。本文主要对《Crawling the Hidden Web》中提到的根据上述理论所研发的爬虫HiWE进行介绍说明。

HiWE: Hidden Web Exposer

1. HiWE爬虫和传统爬虫处理流程的对比:

FlowChart: Traditional Crawler Vs. HiWE

FlowChart: Traditional Crawler Vs. HiWE

阅读全文…

“暗网”信息的抓取(1) (Crawling the Hidden Web)

2009年9月20日 10 条评论

写在最前面:最近,看了Sriram Raghavan, Hector Garcia-Molina的《Crawling the Hidden Web》一文,下面对文中所讲述主要的思想做一个简要的概括,同时就文中作者的想法,谈一些我自己的看法。

有研究表明(1997年的),互联网上的网页有80%多的是动态页面(Dynamic Pages)。现在,随着各种各样的高级编程语言和一些功能更加完备的web服务器的出现,使得动态页面的生成越来越简单。因此,80%这个比例,在现在看来,只是一个保守的估计,现在的比例肯定是高于80%的。 阅读全文…

互联网风云

2009年5月30日 7 条评论

当今的互联网,风起云涌,没有一天平静的日子,几乎天天都有新闻出现,互联网对人们生活的影响也越来越多,反正我是越来越觉得,我们的日常生活已经离不开互联网了,不敢想象,要是没有互联网,这生活该多无聊呀!下面从时下几个比较热门的方面来谈一下我对当今互联网格局的一些认识。 阅读全文…