python网络爬虫与信息提取 学习笔记day1

原文链接:http://www.cnblogs.com/yezhaodan/p/7419192.html

Day1:

安装python之后,为其配置requests第三方库,并爬取百度主页内容。

语句解释:

r.status_code检测请求的状态码,如果状态码为200,则说明访问成功,否则,则说明访问失败。

注意Response对象的五个属性:

?

?

?

爬取网页的通用代码框架:

# -*- coding: utf-8 -*-

"""

Spyder Editor

 

This is a temporary script file.

"""

import requests

 

def getHTMLText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

   

if __name__=="__main__":

    url="http://www.baidu.com"

    print(getHTMLText(url))

  

?

HTTP URL的理解

???????? URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源

?

?

?

?

?

?

http协议对资源的操作对应requests库的六个操作

post:向URL POST一个字典,自动编码为form(表单);想URL POST一个亚博2018官方网站,自动编码为data

?

转载于:https://www.cnblogs.com/yezhaodan/p/7419192.html

原文链接:加载失败,请重新获取