爬虫学习03常用模块

一.requests

1. requests.get(url,headers)
2.requests.post(url, headers, data)
 
 
 
 

二.urllib

from urllib import request
1.request.urlretreieve(url, filename)   对url地址内的资源
 
 

三.lxml

from lxml import etree
1.etree.HTML()
 

四.selenium 

1.什么是selenium:selenium是一个python的第三方模块,对外提供了控制浏览器的接口,可以让浏览器完成自动化的操作.
2.环境搭建: 
        1.安装: pip install selenium
        2.获取一款浏览器的驱动程序(谷歌)              
             a.谷歌浏览器驱动下载地址:http://chromedriver.storage.googleapis.com/index.html
             b.下载的驱动程序必须和浏览器的版本统一,根据http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表进行对应