首页 > 源码分享, 程序人生 > 一个基于SAX方法Html解析器(HtmlParser)

一个基于SAX方法Html解析器(HtmlParser)

在开始写本文的有必要简单介绍一下SAX,SAX的全称是Simple API for XML,它是一种流式的解析XML文件的方法。它的大致思想是用户向解析器注册一些回调函数,解析器在解析页面的过程中,当特定的事件发生的时候,调用对应的回调函数,完成用户指定的任务。想要详细了解SAX的读者朋友,可以参考:http://en.wikipedia.org/wiki/Simple_API_for_XML。本文所介绍的就是一个用SAX思想实现的HtmlPaser。

  • 1. 如何获取HtmlParser?
  • 可以从http://code.google.com/p/xiao5geproject/source/browse/trunk/htmlparser/获取HtmlParser的源码,任何个人或组织都可以免费使用,如你在使用的过程中发现任何问题,都可以在这里留言。

  • 2. 如何使用HtmlParser?
  • (1)包含htmlparser.h:
  • 1
    
    #include "htmlparser.h"
  • (2)实现自己的EventHandler
  • 1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    
    //commnent event handler, used to skip the comment
    class CommentHandler : public EventHandler
    {
    public:
     
        explicit CommentHandler(const char * tag) :
            EventHandler(tag)
        {}
     
        bool OnEvent(const char * begin_pos, size_t len, 
            const char *& cur_pos)
        {
            const char * pos = cur_pos;
            while (pos < begin_pos + len)
            {
                if (pos + 2 < begin_pos + len &&
                        pos[0] == '-' && pos[1] == '-' &&
                        pos[2] == '>')
                {
                    cur_pos = pos + 3;
                    return true;
                }
                ++ pos;
            }
            return false;
        }
    };
     
    //title evnent handler, used to process the <title tag
    class TitleHandler : public EventHandler
    {
    public:
     
        explicit TitleHandler(const char * tag) :
            EventHandler(tag)
        {}
     
        bool OnEvent(const char * begin_pos, size_t len,
            const char *& cur_pos)
        {
            const char * pos = cur_pos + 1;
            const char * begin = NULL;
            const char * end = NULL;
            while (pos < begin_pos + len)
            {
                if ('>' == *pos)
                {
                    begin = pos + 1;
                }
                else if ('< ' == *pos)
                {
                    end = pos;
                    break;
                }
                ++ pos;
            }
     
            if (NULL != begin && NULL != end)
            {
                m_title = std::string(begin, end - begin);
                cur_pos = pos + 1;
                return true;
            }
            return false;
        }
     
        const std::string & GetTitle() const
        {
            return m_title;
        }
     
    private:
     
        std::string m_title;
    };
  • (3)把自己的EventHandler注册到HtmlParser中,调用Parse()方法启动parser
  • 1
    2
    3
    4
    
    HtmlParser parser(page, page_len);
    parser.RegisterHandler(new CommentHandler("<!--"));
    parser.RegisterHandler(new TitleHandler("<title"));
    parser.Parse();

    通过上面三步,就实现了一个简单的提取html页面的title的解析器。用户可以通过实现自己来EventHandler来对自己所关注的标签做指定的操作。另外,本文讲的Html页面的解析,其实可以扩展到任意类型的标签语言(Markup Language)文档的解析,感兴趣的读者朋友可以自己尝试一下。

    1. 2010年9月29日21:54 | #1

      我只能顶一下了。什么都看不懂。佩服呀

    2. 2010年9月30日06:41 | #2

      很好,每次来都有收获!

    3. 2010年9月30日13:09 | #3

      无聊之中,到此一游$_$

    4. 小凳子
      2010年9月30日17:49 | #4

      围观一下 顺便祭奠我那远去的程序员的日子

    5. 2010年10月1日12:21 | #5

      不错的文章,想跟贵站交换友链。已经给贵站加好了,请查看!

    6. 2010年10月1日23:20 | #6

      从小玩游戏,现在玩博客

    7. 2010年10月2日19:34 | #7

      说的不错,向您学习~\(≧▽≦)/~啦啦啦

    8. 2010年10月12日15:15 | #8

      如何获取HtmlParser?学习啦,多谢

    9. 2010年10月13日23:19 | #9

      先赞一个,没怎么看懂,慢慢品

    10. 2010年10月13日23:20 | #10

      先赞一个,没怎么看懂,多看几次

    11. 2010年10月14日13:49 | #11

      高深的东西啦,呵呵,纯支持,预祝朋友重阳节愉快

    12. ssx
      2012年4月14日14:23 | #12

      感觉还好,不过能加点注释就更好了

    1. 本文目前尚无任何 trackbacks 和 pingbacks.
    您必须在 登录 后才能发布评论.