python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析

爬虫入门系列教程：

转载请注明出处：https://blog.csdn.net/aaronjny/article/details/80291997

时隔好久，爬虫教程终于更新了。不好意思啊= =

这篇教程主要讲如何将网络上的图片保存到本地来，以及如何利用接口解析完成动态页面的抓取。

本来是想依然用“妹子图”站点来演示的，结果点击去一看，没想到只过去一年，里面的图片却尺度越来越大了。。。还是算了。

看了一下，还是用“淘女郎”来演示吧，这也是一个用的比较多的例子。读完本文，你将掌握以下技能：

“淘女郎”爬虫的demo和逻辑
基于对接口的解析完成动态页面的抓取
使用python创建文件夹
将网络上的图片（或文件）保存到本地
基本的反ban措施

特别声明：本爬虫仅供学习使用，该博客撰写也仅出于学习目的，请勿用于商业活动，博主不承担相关法律责任。

1.创建项目

首先，在pycharm里面创建一个项目，就按站点域名来命名吧，mm_taobao。

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

创建完成之后，打开项目。然后创建新的py文件，命名为spider.py。相关代码将在spider.py里进行编写。

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

ok，接下来我们对要采集的站点进行研究。

2.研究目标站点

我们要采集的站点是“淘女郎”。百度搜索一下，就能够找到链接，比如当前的链接是https://mm.taobao.com/search_tstar_model.htm（如果淘宝的网站架构做了相关调整，这个链接可能会改变）。

页面大概是这个样子的：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

我们想要获得的内容如下：淘女郎名字、所在地、以及该名模特发布的一系列图片。

其中，名字和所在地我们已经看到了，而点击该模特的肖像，就能进入该模特的主页，里面有她发布的一系列图片：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

那么，如何来编写爬虫呢？

首先，我们回到主页上来。在主页上能够看到模特的列表，比如说第一个模特，名为“朱琳”。好的，让我们邮件点击页面，查看源码。然后在源码中搜索“朱琳”，你会看到：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

什么鬼？为什么源码中找不到？

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

读过前面两篇博文，你应该知道，爬虫获取的内容是从源码中取得的。但是我在页面中明明看到了，在源码里面却没用，这怎么爬？

这就是动态页面抓取。当我们访问这个网址的时候，浏览器返回给我们的只有一部分信息。仔细观察源码就能发现，在本应该显示模特信息的地方，源码是这个样子的：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

数据加载中……事实上，服务器是先给我们返回了这个页面，然后又通过ajax技术，请求了另外一个接口。接口返回了淘女郎们的信息，随后浏览器运行javascript代码，将这些信息填充到先前的页面中，因此，我们才在页面中看到了淘女郎们的信息。右键点击页面，选择“检查”，在“网络”一栏中能够看到真相（可能要刷新页面）：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

能够看到，共进行了两次请求，第一次是我们先前看到的源码，第二次就是淘女郎们相关信息。点开之后，右边有展示。我们需要的淘女郎姓名、所在地以及userId都能够从中获得（userId用于构建模特个人主页访问地址）。

嗯，大概是这个样子。开始写代码吧，其余的问题我们在编码的过程中进行探讨。

3.解析首页

在你对requests库和web请求过程有所了解后，你已经能够很轻松编写出请求首页接口的代码来：

# coding=utf-8
import sys

reload(sys)
sys.setdefaultencoding('utf8')
import requests
from bs4 import BeautifulSoup
import json

index_url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'

def parse_index():
    """
    解析淘女郎首页接口
    :return:
    """
    # 创建一个session
    session = requests.Session()
    # 设置用于访问的请求头
    headers = {
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'origin': 'https://mm.taobao.com',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest',
    }
    # 设置post的数据
    data = {
        'q': '',
        'viewFlag': 'A',
        'sortType': 'default',
        'searchStyle': '',
        'searchRegion': 'city:',
        'searchFansNum': '',
        'currentPage': '1',
        'pageSize': '100',
    }
    # 进行请求，并用resp接收返回结果
    resp = session.post(url=index_url, data=data,
                        headers=headers)
    # 打印返回结果
    print resp
    print resp.content

if __name__ == '__main__':
    parse_index()

Session是requests库中的一个类，创建session对象进行访问的好处是，session对象能够自动维护访问的cookies信息。当然，它是不具备执行javascript代码的能力的，因此通过javascript修改的cookies信息它是记录不到的。

为什么要记录cookies？

因为有些站点，在你进行请求时，服务器可能会验证你的cookies信息。当cookies信息不正确时，服务器就会拒绝你的访问。

随后，我们设置了本次访问的headers和data，也就是请求消息头和post传递的数据。这些数据都可以从“检查”-“网络”-点击相关请求-“Headers”栏获得：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

设置headers和data的目的是，为了将本次请求伪装成浏览器的请求，并通过传递的数据控制服务器返回我们需要的信息。更多的这里就不多说了，后面会在反ban的教程中做详细介绍。

接口的地址也是从这里获得的。

让我们运行一下代码，可以看到，访问成功了，返回的结果是一个json字符串。

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

接下来，我们进行解析吧。解析json字符串，我们需要用到Python的json库，它能够将一个json字符串转换为一个字典对象（或者反过来也可以）。我们将利用json库从返回的内容中提取需要的信息。

# 将json字符串转换成字典对象
    data=json.loads(resp.content.decode('gb2312'))
    # 找到含有淘女郎信息的列表
    data=data['data']['searchDOList']
    for mm in data:
        print mm['city']
        print mm['realName']
        print mm['userId']
        print '*'*80

需要注意的是，返回的消息的编码为gb2312，我们需要先进行decode，将其变为utf8，不然会出现乱码。现在运行一下代码看一下，我们已经成功提取出了信息：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

测试没出现问题，那么，我们把代码稍微改一下，以适应接下来的步骤。修改后的代码稍后给出。

4.解析模特主页

请求模特主页的代码应该也不存在什么问题，跟上面那个是差不多的，区别只是一个用get一个用post而已。代码如下：

# coding=utf-8
import sys

reload(sys)
sys.setdefaultencoding('utf8')
import requests
from bs4 import BeautifulSoup
import json
import os

index_url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
base_path = 'images'

def parse_index():
    """
    解析淘女郎首页接口
    :return:
    """
    # 创建一个session
    session = requests.Session()
    # 设置用于访问的请求头
    headers = {
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'origin': 'https://mm.taobao.com',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest',
    }
    # 设置post的数据
    data = {
        'q': '',
        'viewFlag': 'A',
        'sortType': 'default',
        'searchStyle': '',
        'searchRegion': 'city:',
        'searchFansNum': '',
        'currentPage': '1',
        'pageSize': '100',
    }
    # 进行请求，并用resp接收返回结果
    resp = session.post(url=index_url, data=data,
                        headers=headers)
    # 打印返回结果
    print resp
    print resp.content

    # 将json字符串转换成字典对象
    data = json.loads(resp.content.decode('gb2312'))
    # 找到含有淘女郎信息的列表
    data = data['data']['searchDOList']
    for mm in data:
        city = mm['city']
        name = mm['realName']
        userid = mm['userId']
        next_url = 'https://mm.taobao.com/self/aiShow.htm?userId={}'.format(userid)
        parse_mmpage(session, next_url, city, name)
        # 这里的break是用于测试的，只测试一个就跳出
        break

def parse_mmpage(session, url, city, name):
    # 检查是否存在base_path目录，不存在则创建
    if not os.path.exists(base_path):
        os.mkdir(base_path)
    # 检测是否存在当前 姓名-城市 的文件夹，不存在则创建
    current_path = os.path.join(base_path, '{}-{}'.format(name, city).encode('gbk')) # windows下转成了gbk，linux下不需要
    if not os.path.exists(current_path):
        os.mkdir(current_path)
    # 设置请求消息头
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    }
    # 请求页面
    resp = session.get(url=url, headers=headers)
    # 打印结果
    print resp
    print resp.content.decode('gbk')

if __name__ == '__main__':
    parse_index()

解析淘女郎主页的for循环部分，为了方便测试，我只处理了一个就break了。

创建目录的时候，因为目前是在Windows上写的这篇博客，所以目录名字需要先转成gbk编码的，否则会出现乱码。如果在Linux上进行编写，则不用考虑这个问题。

请求模特主页源码时，因为该主页源码为gbk编码，所以需要先使用gbk对其解码。做爬虫的话，关于字符编解码的知识还是要知道的，不清楚的同学可以百度一下相关知识，这里就不多说了。

执行一下代码，可以看到，成功获得了网页源码：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

而且也创建了相关目录（我使用的是相对路径，所以创建的文件夹位于当前项目根目录）：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

接下来，我们要从返回的网页源码中提取图片地址的列表。使用浏览器的“检查”功能对页面进行分析，发现主页上的照片均来自<div class="mm-aixiu-content" id="J_ScaleImg">这个div。我们提取这个div中所有img的链接即可实现目标。

# 解码
    content = resp.content.decode('gbk')
    # 构建beautifulsoup对象
    bsobj = BeautifulSoup(content, 'lxml')
    # 获取div中所有的img对象
    img_list = bsobj.find('div', {'class': 'mm-aixiu-content', 'id': 'J_ScaleImg'}).find_all('img')
    # 遍历img对象，获得其下载地址
    for img in img_list:
        src = 'http:' + img.get('src')
        print src

运行一下，我们已经成功提取了图片链接：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

5.下载图片

接下来就是下载图片了，可以这样写：

# coding=utf-8
import sys

reload(sys)
sys.setdefaultencoding('utf8')
import requests
from bs4 import BeautifulSoup
import json
import os

index_url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
base_path = 'images'

def parse_index():
    """
    解析淘女郎首页接口
    :return:
    """
    # 创建一个session
    session = requests.Session()
    # 设置用于访问的请求头
    headers = {
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'origin': 'https://mm.taobao.com',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest',
    }
    # 设置post的数据
    data = {
        'q': '',
        'viewFlag': 'A',
        'sortType': 'default',
        'searchStyle': '',
        'searchRegion': 'city:',
        'searchFansNum': '',
        'currentPage': '1',
        'pageSize': '100',
    }
    # 进行请求，并用resp接收返回结果
    resp = session.post(url=index_url, data=data,
                        headers=headers)
    # 打印返回结果
    print resp
    print resp.content

    # 将json字符串转换成字典对象
    data = json.loads(resp.content.decode('gb2312'))
    # 找到含有淘女郎信息的列表
    data = data['data']['searchDOList']
    for mm in data:
        city = mm['city']
        name = mm['realName']
        userid = mm['userId']
        next_url = 'https://mm.taobao.com/self/aiShow.htm?userId={}'.format(userid)
        parse_mmpage(session, next_url, city, name)
        # 这里的break是用于测试的，只测试一个就跳出
        break

def parse_mmpage(session, url, city, name):
    """
    解析模特主页
    :param session: 
    :param url: 需要请求的地址
    :param city: 模特所在的城市
    :param name: 模特的姓名
    :return: 
    """
    # 检查是否存在base_path目录，不存在则创建
    if not os.path.exists(base_path):
        os.mkdir(base_path)
    # 检测是否存在当前 姓名-城市 的文件夹，不存在则创建
    current_path = os.path.join(base_path, '{}-{}'.format(name, city).encode('gbk'))  # windows下转成了gbk，linux下不需要
    if not os.path.exists(current_path):
        os.mkdir(current_path)
    # 设置请求消息头
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    }
    # 请求页面
    resp = session.get(url=url, headers=headers)
    # 打印结果

    # 解码
    content = resp.content.decode('gbk')
    # 构建beautifulsoup对象
    bsobj = BeautifulSoup(content, 'lxml')
    # 获取div中所有的img对象
    img_list = bsobj.find('div', {'class': 'mm-aixiu-content', 'id': 'J_ScaleImg'}).find_all('img')
    # 遍历img对象，获得其下载地址
    for img in img_list:
        src = 'http:' + img.get('src')
        download_img(src, current_path, '0.jpg')
        break

def download_img(url, path, name):
    """
    下载一张图片
    :param url: 图片地址 
    :param path: 图片保存路径
    :param name: 图片保存名称
    :return: 
    """
    # 设置请求头
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Host': 'img.alicdn.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    }
    # 下载图片
    resp = requests.get(url, headers=headers)
    # 将图片以二进制的形式写入到文件中
    with open(os.path.join(path, name), 'wb') as f:
        f.write(resp.content)

if __name__ == '__main__':
    parse_index()

为了方便测试，当前代码只下载第一页的第一位淘女郎的第一张图片。图片的请求头的获取与前面类似，把网址改成图片的地址就行了。运行查看结果：

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

6.完善代码

主要的编码已经完成了，并且在编码过程中验证了我们的代码时可行的。那么，现在我们来完善一下我们的代码，去除测试用代码，并完善其功能。

# coding=utf-8
import sys

reload(sys)
sys.setdefaultencoding('utf8')
import requests
from bs4 import BeautifulSoup
import json
import os
import logging

# 首页接口地址
index_url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
# 存放图片的主目录
base_path = 'images'
# 下载起始页
start_page = 1
# 下载终止页
end_page = 2
# 单个模特下载的最大图片数
download_limit = 10

# 创建一个logger
logger = logging.getLogger()
logger.setLevel(logging.INFO)
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s: - %(message)s',
                              datefmt='%Y-%m-%d %H:%M:%S')
ch = logging.StreamHandler()
ch.setLevel(logging.INFO)
ch.setFormatter(formatter)
logger.addHandler(ch)

def parse_index(page_num, session):
    """
    解析淘女郎首页接口
    :param page_num 要解析第几页
    :return:
    """
    logger.info(u"当前正在解析第{}页...".format(page_num))
    # 设置用于访问的请求头
    headers = {
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'origin': 'https://mm.taobao.com',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest',
    }
    # 设置post的数据
    data = {
        'q': '',
        'viewFlag': 'A',
        'sortType': 'default',
        'searchStyle': '',
        'searchRegion': 'city:',
        'searchFansNum': '',
        'currentPage': '{}'.format(page_num),
        'pageSize': '100',
    }
    # 进行请求，并用resp接收返回结果
    resp = session.post(url=index_url, data=data,
                        headers=headers)
    # 将json字符串转换成字典对象
    data = json.loads(resp.content.decode('gbk'))
    # 找到含有淘女郎信息的列表
    data = data['data']['searchDOList']
    for mm in data:
        city = mm['city']
        name = mm['realName']
        userid = mm['userId']
        next_url = 'https://mm.taobao.com/self/aiShow.htm?userId={}'.format(userid)
        parse_mmpage(session, next_url, city, name)

def parse_mmpage(session, url, city, name):
    """
    解析模特主页
    :param session:
    :param url: 需要请求的地址
    :param city: 模特所在的城市
    :param name: 模特的姓名
    :return:
    """
    logger.info(u'正在保存 {}-{} 的图片...'.format(city, name))
    # 检查是否存在base_path目录，不存在则创建
    if not os.path.exists(base_path):
        os.mkdir(base_path)
    # 检测是否存在当前 姓名-城市 的文件夹，不存在则创建
    current_path = os.path.join(base_path, '{}-{}'.format(name, city).encode('gbk'))  # windows下转成了gbk，linux下不需要
    if not os.path.exists(current_path):
        os.mkdir(current_path)
    # 设置请求消息头
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'referer': 'https://mm.taobao.com/search_tstar_model.htm',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    }
    # 请求页面
    resp = session.get(url=url, headers=headers)
    # 解码
    content = resp.content.decode('gbk')
    # 构建beautifulsoup对象
    bsobj = BeautifulSoup(content, 'lxml')
    # 获取div中所有的img对象
    img_list = bsobj.find('div', {'class': 'mm-aixiu-content', 'id': 'J_ScaleImg'}).find_all('img')
    # 遍历img对象，获得其下载地址
    cnt = 1
    for img in img_list:
        try:
            src = 'http:' + img.get('src')
        except:
            continue
        logger.info(u'正在保存第{}张图片...'.format(cnt))
        cnt += download_img(src, current_path, '{}.jpg'.format(cnt))
        # 每个模特最多只下载download_limit张
        if cnt > download_limit:
            break

def download_img(url, path, name):
    """
    下载一张图片
    :param url: 图片地址
    :param path: 图片保存路径
    :param name: 图片保存名称
    :return:
    """
    # 设置请求头
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Host': 'img.alicdn.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    }
    # 下载图片
    resp = requests.get(url, headers=headers)
    # 舍弃掉太小的图片，它可能是图标
    if len(resp.content) < 1000:
        return 0
    # 将图片以二进制的形式写入到文件中
    with open(os.path.join(path, name), 'wb') as f:
        f.write(resp.content)
    return 1

if __name__ == '__main__':
    # 创建一个session
    session = requests.Session()
    # 从起始页到终止页，逐页抓取
    for x in range(start_page, end_page + 1):
        # 抓取一页
        parse_index(x, session)

完善的部分：

可以设定抓取的起始页和终止页，程序会从起始页开始逐页抓取
可以设定每个模特抓取的最大图片数，抓取到指定数目后就会跳过
增加了logger部分，为程序添加必要的提示（当然，不添加程序执行会更快，但是不利于调试）

这个程序还有很多需要优化的地方，但作为一个简单的教程就只说这么多了，因为这篇博文的目的只是讲述基于接口解析的动态页面抓取和图片（文件）下载，此外还涉及到了一些反ban的东西，但是没有细讲，这部分内容后面会专门介绍。

github地址请点这里。

emmm，终于写完了，博文写起来真心比写代码累多了= =

就这样吧，下一篇教程还不知道什么时候更，看情况吧= =（其实就是看心情嘛，23333）

python爬虫入门教程(三)：淘女郎爬虫 ( 接口解析 | 图片下载 )

1.创建项目

2.研究目标站点

3.解析首页

4.解析模特主页

5.下载图片

6.完善代码

更多

LeoKing

相关推荐

其他操作

随机推荐

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏