存档

文章标签 ‘Crawl’

“暗网”信息的抓取(1) (Crawling the Hidden Web)

2009年9月20日 10 条评论

写在最前面:最近,看了Sriram Raghavan, Hector Garcia-Molina的《Crawling the Hidden Web》一文,下面对文中所讲述主要的思想做一个简要的概括,同时就文中作者的想法,谈一些我自己的看法。

有研究表明(1997年的),互联网上的网页有80%多的是动态页面(Dynamic Pages)。现在,随着各种各样的高级编程语言和一些功能更加完备的web服务器的出现,使得动态页面的生成越来越简单。因此,80%这个比例,在现在看来,只是一个保守的估计,现在的比例肯定是高于80%的。 阅读全文…