Adminxe's Blog | 低调求发展 - 潜心习安全 ,技术永无止境 | 谢谢您对本站的支持,有什么问题或者建议请及时联系:点击这里给我发消息

【Python爬虫】爬取网页的通用代码

Python Adminxe 1447℃ 0评论

Request库的异常
requests.ConnectionError:网络连接错误一场,如DNS查询失败,拒绝连接等
requests.HTTPError:HTTP错误异常
requests.URLRequired:URL缺失异常
requests.TooManyRedirects:超过最大重定向次数,产生重定向异常
requests.ConnectTimenout:连接远程服务器超时异常
requests.Timeout:请求URL超时,产生超时异常
r.raise_for_status():如果不是200,产生异常requests.HTTPError”””

爬取网页的通用代码框架:

import requests
 def getHTMLText(url):
     try:
         r=requests.get(url,timeout=30)
         r.raise_for_status#如果状态不是200,引发HTTPError异常
         r.encoding=r.apparent_encoding
         return r.text
     except:
         return"产生异常"
 if name=="main":
     url="http://www.baidu.com"
     print(getHTMLText(url))

转载请注明:Adminxe's Blog » 【Python爬虫】爬取网页的通用代码

喜欢 (3)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址