创新互联Python教程:python中htmlparser解析html
说明

我们提供的服务有:成都网站建设、成都网站设计、微信公众号开发、网站优化、网站认证、兖州ssl等。为上千企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的兖州网站制作公司
1、HTMLparser提供了一种方便简洁的处理html文件的方法。
它根据树形结构将html页面中的标签分析成一个节点,一种类型的节点对应一个类,通过调用它可以轻松访问标签中的内容。
2、html本质上是xml的子集,但是html的语法没有html严格,不能用标准的DOM或者SAX来分析html。
实例
from html.parser import htmlparser
from html.entities import name2codepoint
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print('<%s>' % tag)
def handle_endtag(self, tag):
print('%s>' % tag)
def handle_startendtag(self, tag, attrs):
print('<%s/>' % tag)
def handle_data(self, data):
print(data)
def handle_comment(self, data):
print('')
def handle_entityref(self, name):
print('&%s;' % name)
def handle_charref(self, name):
print('%s;' % name)
parser = MyHTMLParser()
parser.feed('''
Some html HTML tutorial...
END
''')
//test结果
Some
html
HTML tutorial...
END
以上就是python中htmlparser解析html,希望对大家有所帮助。更多Python学习指路:创新互联Python教程
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
分享文章:创新互联Python教程:python中htmlparser解析html
文章源于:http://www.jxjierui.cn/article/dhgssec.html


咨询
建站咨询
