<s id="0oyqk"></s>
  • <option id="0oyqk"><optgroup id="0oyqk"></optgroup></option>
  • <source id="0oyqk"><bdo id="0oyqk"></bdo></source>
  • Python使用正則表達式去除(過濾)HTML標簽提取文字功能

     更新時間:2019-09-09 03:01:04   作者:佚名   我要評論(0)

    正則表達式是一個特殊的字符序列,可以幫助您使用模式中保留的專門語法來匹配或查找其他字符串或字符串集。 正則表達式在UNIX世界中被廣泛使用。
    下面給大家介

    正則表達式是一個特殊的字符序列,可以幫助您使用模式中保留的專門語法來匹配或查找其他字符串或字符串集。 正則表達式在UNIX世界中被廣泛使用。

    下面給大家介紹下Python使用正則表達式去除(過濾)HTML標簽提取文字,具體代碼如下所示:

    # -*- coding: utf-8-*-
    import re
    ##過濾HTML中的標簽
    #將HTML中標簽等信息去掉
    #@param htmlstr HTML字符串.
    def filter_tags(htmlstr):
     #先過濾CDATA
     re_cdata=re.compile('//<![CDATA[[^>]*//]]>',re.I) #匹配CDATA
     re_script=re.compile('<s*script[^>]*>[^<]*<s*/s*scripts*>',re.I)#Script
     re_style=re.compile('<s*style[^>]*>[^<]*<s*/s*styles*>',re.I)#style
     re_br=re.compile('<brs*?/?>')#處理換行
     re_h=re.compile('</?w+[^>]*>')#HTML標簽
     re_comment=re.compile('<!--[^>]*-->')#HTML注釋
     s=re_cdata.sub('',htmlstr)#去掉CDATA
     s=re_script.sub('',s) #去掉SCRIPT
     s=re_style.sub('',s)#去掉style
     s=re_br.sub('n',s)#將br轉換為換行
     s=re_h.sub('',s) #去掉HTML 標簽
     s=re_comment.sub('',s)#去掉HTML注釋
     #去掉多余的空行
     blank_line=re.compile('n+')
     s=blank_line.sub('n',s)
     s=replaceCharEntity(s)#替換實體
     return s
    ##替換常用HTML字符實體.
    #使用正常的字符替換HTML中特殊的字符實體.
    #你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.
    #@param htmlstr HTML字符串.
    def replaceCharEntity(htmlstr):
     CHAR_ENTITIES={'nbsp':' ','160':' ',
        'lt':'<','60':'<',
        'gt':'>','62':'>',
        'amp':'&','38':'&',
        'quot':'"','34':'"',}
      
     re_charEntity=re.compile(r'&#?(?P<name>w+);')
     sz=re_charEntity.search(htmlstr)
     while sz:
      entity=sz.group()#entity全稱,如>
      key=sz.group('name')#去除&;后entity,如>為gt
      try:
       htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
       sz=re_charEntity.search(htmlstr)
      except KeyError:
       #以空串代替
       htmlstr=re_charEntity.sub('',htmlstr,1)
       sz=re_charEntity.search(htmlstr)
     return htmlstr
    def repalce(s,re_exp,repl_string):
     return re_exp.sub(repl_string,s)
    if __name__=='__main__':
     str='' # 需要提取的html字符串
     str=filter_tags(str)
     print(str)

    總結

    以上所述是小編給大家介紹的Python使用正則表達式去除(過濾)HTML標簽提取文字功能 ,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!
    如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!

    您可能感興趣的文章:

    • Python使用正則表達式過濾或替換HTML標簽的方法詳解
    • Python正則表達式匹配和提取IP地址
    • python利用正則表達式提取字符串
    • python 根據正則表達式提取指定的內容實例詳解
    • 基于Python正則表達式提取搜索結果中的站點地址
    • python使用正則表達式提取網頁URL的方法

    相關文章

    最新評論

    种子磁力搜索器