Python常用爬虫代码总结方便查询-创新互联
beautifulsoup解析页面

from bs4 import BeautifulSoup
soup = BeautifulSoup(htmltxt, "lxml")
# 三种装载器
soup = BeautifulSoup("", "html.parser")
### 只有起始标签的会自动补全,只有结束标签的会自动忽略
### 结果为:
soup = BeautifulSoup("", "lxml")
### 结果为:
soup = BeautifulSoup("", "html5lib")
### html5lib则出现一般的标签都会自动补全
### 结果为:
# 根据标签名、id、class、属性等查找标签
### 根据class、id、以及属性alog-action的值和标签类别查询
soup.find("a",class_="title",id="t1",attrs={"alog-action": "qb-ask-uname"}))
### 查询标签内某属性的值
pubtime = soup.find("meta",attrs={"itemprop":"datePublished"}).attrs['content']
### 获取所有class为title的标签
for i in soup.find_all(class_="title"):
print(i.get_text())
### 获取特定数量的class为title的标签
for i in soup.find_all(class_="title",limit = 2):
print(i.get_text())
### 获取文本内容时可以指定不同标签之间的分隔符,也可以选择是否去掉前后的空白。
soup = BeautifulSoup(' The Dormouses story
The Dormouses story
', "html5lib")
soup.find(class_="title").get_text("|", strip=True)
#结果为:The Dormouses story|The Dormouses story
### 获取class为title的p标签的id
soup.find(class_="title").get("id")
### 对class名称正则:
soup.find_all(class_=re.compile("tit"))
### recursive参数,recursive=False时,只find当前标签的第一级子标签的数据
soup = BeautifulSoup('abc','lxml')
soup.html.find_all("title", recursive=False) 本文标题:Python常用爬虫代码总结方便查询-创新互联
本文地址:http://www.jxjierui.cn/article/hoihh.html


咨询
建站咨询
