存档

‘搜索引擎’ 分类的存档

浅谈如何针对百度做推广

2010年4月15日 26 条评论

今天在群里聊天,空灵调调兄问到如何针对百度做一些SEO,来改善自己博客在百度的收录情况。其实,我不是专业做SEO的,我的博客也不打算写成以网站推广为主题的,我的主题还是技术经验,生活感悟,读书心得的分享。但是,既然答应了人家,要写一篇关于针对百度推广的文章,那就写吧,从一个做搜索引擎的人的角度来写,如何针对百度做网站推广。

通常,每个搜索引擎都对自家的产品的内容加了一定的权,同样的内容,肯定是自己家的产品的排在前面。举个例子,百度对百度知道,百度百科,HI百度中的内容,通常都排得比较靠前;搜搜对搜搜问问,搜搜百科,腾讯网中的内容,排得比较靠前。谷歌的结果相对比较公平。

了解了上面的的基本原理,那我们就可以针对上面的特点,来针对百度做推广,下面我分享几条方法: 阅读全文…

谷歌真的走了

2010年3月23日 2 条评论

早上起来,晴天一声闷雷,谷歌宣布退出中国市场,已经关闭google.cn(g.cn)的服务,并把用户请求重定向到谷歌香港google.com.hk。下面是今天谷歌的主页,请注意我用红色框框赶快来的两个部分,这两点说明了什么,不用我多说。
阅读全文…

搜搜与百度、谷歌比,有什么不同?

2010年3月10日 9 条评论

以前,老是有身边的朋友问我,你们搜搜与百度、谷歌相比,最大的不同是什么?其实,我心里对这个问题的答案很模糊,因此,只能给朋友一个很模糊的回答,大的方面都差不多吧。于是朋友继续追问,如果都差不多,那你们拿什么跟人家去竞争呢?互联网是一个马太效应相当明显的领域,你没有比百度、谷歌有更鲜明的特点,怎么去跟已经很成熟的它们去竞争呢?这个问题的确又难住了我,我又只能给朋友一个模糊的回答,腾讯的QQ是一个很强大的平台,借助这个平台,搜搜也应该会有所做为的。
阅读全文…

浅淡暗网信息抓取

2009年10月28日 9 条评论

spider写在最前面:之前看过一些关于暗网信息抓取的Paper,觉得这一块是我们今后做好WebSpider的一个重要的努力方向。下面就对暗网信息的抓取做一个通俗简洁的介绍,达到使一般读者能够明白暗网信息抓取基本原理的目的。

1. 什么是暗网

广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的,有可能是网络原因不能下载,比如说企业或学校的内部网站,只有通过代理服务器连通这些网络,才能下载其中的Web页面;也有可能是动态页面,需要用户身份认证,登录后才能下载等,还有其它一些原因,这里不再一一列举。 阅读全文…

“暗网”信息的抓取(2) (Crawling the Hidden Web)

2009年9月20日 没有评论

写在最前面:《“暗网”信息的抓取(1) (Crawling the Hidden Web)》中,讲述了一些关于暗网信息抓取的基本理论。本文主要对《Crawling the Hidden Web》中提到的根据上述理论所研发的爬虫HiWE进行介绍说明。

HiWE: Hidden Web Exposer

1. HiWE爬虫和传统爬虫处理流程的对比:

FlowChart: Traditional Crawler Vs. HiWE

FlowChart: Traditional Crawler Vs. HiWE

阅读全文…

“暗网”信息的抓取(1) (Crawling the Hidden Web)

2009年9月20日 10 条评论

写在最前面:最近,看了Sriram Raghavan, Hector Garcia-Molina的《Crawling the Hidden Web》一文,下面对文中所讲述主要的思想做一个简要的概括,同时就文中作者的想法,谈一些我自己的看法。

有研究表明(1997年的),互联网上的网页有80%多的是动态页面(Dynamic Pages)。现在,随着各种各样的高级编程语言和一些功能更加完备的web服务器的出现,使得动态页面的生成越来越简单。因此,80%这个比例,在现在看来,只是一个保守的估计,现在的比例肯定是高于80%的。 阅读全文…

“搜搜”正式上线啦!

2009年9月4日 2 条评论
Soso

Soso

首先声明,腾讯官方已经对外证实了,由腾讯自主研发的搜索引擎—-“搜搜”正式发布,开始试运行。所以下面所写的内容应该不算是泄露公司机密了。从一年前到“搜搜”实习,到一年后,毕业,正式加入“搜搜”,成为“搜搜”的一员,我经历了“搜搜”最后冲刺阶段的各个环节。而在这个过程中,自己所做的工作,也多多少少为“搜搜”的今天算是添砖加瓦吧,现在看到自己的努力已经开始发挥作用,开始改变千千万万中国互联用户的生活,真的感觉很欣慰。 阅读全文…

分类: 我的观点, 搜索引擎 标签:

robots.txt协议中User-agent的匹配

2009年8月3日 没有评论

之前写过一篇关于robots.txt协议(http://hi.baidu.com/wuzsh/blog/item/cef1fc03f6ff54723912bbbe.html)的文章 ,今天收到站长投诉,说是我们的spider不遵守robots.txt协议。把它们的robots.txt下下来测试一下,果然,以前的robots.txt程序有个bug。主要是没把robots.txt中user-agent的匹配弄好,于是再翻出来看看,下面是原文:(摘自http://www.robotstxt.org/norobots-rfc.txt阅读全文…