存档

文章标签 ‘Hidden Web’

浅淡暗网信息抓取

2009年10月28日 9 条评论

spider写在最前面:之前看过一些关于暗网信息抓取的Paper,觉得这一块是我们今后做好WebSpider的一个重要的努力方向。下面就对暗网信息的抓取做一个通俗简洁的介绍,达到使一般读者能够明白暗网信息抓取基本原理的目的。

1. 什么是暗网

广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的,有可能是网络原因不能下载,比如说企业或学校的内部网站,只有通过代理服务器连通这些网络,才能下载其中的Web页面;也有可能是动态页面,需要用户身份认证,登录后才能下载等,还有其它一些原因,这里不再一一列举。 阅读全文…

“暗网”信息的抓取(2) (Crawling the Hidden Web)

2009年9月20日 没有评论

写在最前面:《“暗网”信息的抓取(1) (Crawling the Hidden Web)》中,讲述了一些关于暗网信息抓取的基本理论。本文主要对《Crawling the Hidden Web》中提到的根据上述理论所研发的爬虫HiWE进行介绍说明。

HiWE: Hidden Web Exposer

1. HiWE爬虫和传统爬虫处理流程的对比:

FlowChart: Traditional Crawler Vs. HiWE

FlowChart: Traditional Crawler Vs. HiWE

阅读全文…

“暗网”信息的抓取(1) (Crawling the Hidden Web)

2009年9月20日 10 条评论

写在最前面:最近,看了Sriram Raghavan, Hector Garcia-Molina的《Crawling the Hidden Web》一文,下面对文中所讲述主要的思想做一个简要的概括,同时就文中作者的想法,谈一些我自己的看法。

有研究表明(1997年的),互联网上的网页有80%多的是动态页面(Dynamic Pages)。现在,随着各种各样的高级编程语言和一些功能更加完备的web服务器的出现,使得动态页面的生成越来越简单。因此,80%这个比例,在现在看来,只是一个保守的估计,现在的比例肯定是高于80%的。 阅读全文…