存档

文章标签 ‘sax’

一个基于SAX方法Html解析器(HtmlParser)

2010年9月27日 12 条评论

在开始写本文的有必要简单介绍一下SAX,SAX的全称是Simple API for XML,它是一种流式的解析XML文件的方法。它的大致思想是用户向解析器注册一些回调函数,解析器在解析页面的过程中,当特定的事件发生的时候,调用对应的回调函数,完成用户指定的任务。想要详细了解SAX的读者朋友,可以参考:http://en.wikipedia.org/wiki/Simple_API_for_XML。本文所介绍的就是一个用SAX思想实现的HtmlPaser。

  • 1. 如何获取HtmlParser?
  • 可以从http://code.google.com/p/xiao5geproject/source/browse/trunk/htmlparser/获取HtmlParser的源码,任何个人或组织都可以免费使用,如你在使用的过程中发现任何问题,都可以在这里留言。 阅读全文…