Python如何爬取首都医科大学文章
这篇文章主要讲解了“Python如何爬取首都医科大学文章”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何爬取首都医科大学文章”吧!

公司主营业务:做网站、网站建设、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出五大连池免费做网站回馈大家。
概述
爬虫项目实践
目标:首都医科大学官网新发文章
步骤
请求网址
通过正则表达式提取数据
分析数据
代码
# 导入模块
# 用于请求网址
import requests
# 用于解析网页源代码
from bs4 import BeautifulSoup
# 用于正则
import re
# 目标网址
# 设置页数,提取10页的数据
page=['']
for i in range(1,10,1):
page.append(i)
# 保存文件
with open(r'ccmu.csv','a',encoding='utf-8') as f:
for i in page:
url= 'http://www.ccmu.edu.cn/zxkylw_12912/index'+str(i)+'.htm'
# 必要时添加header请求头,防止反爬拦截
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0'
}
# 目标网址请求方式为get
resp=requests.get(url)
html = resp.content.decode('utf-8')
# 解析html
soup = BeautifulSoup(html,'html.parser')
# 找到最近发表的sci论文
# 使用find和find_all 函数
infos=soup.find('ul',{'class':'list03'}).find_all('li')
for info in infos:
time=info.find('span').get_text()
ajt= info.find('a').get_text()
# 写入文件
f.write("{},{}\n".format(time,ajt))感谢各位的阅读,以上就是“Python如何爬取首都医科大学文章”的内容了,经过本文的学习后,相信大家对Python如何爬取首都医科大学文章这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!
当前文章:Python如何爬取首都医科大学文章
文章源于:http://www.jxjierui.cn/article/jojphj.html


咨询
建站咨询
