Python 爬虫多线程实现下载图片

本篇文章可能跟上一篇有点像只是换了个页面然后搞定他的ajax 通过直接访问ajax的接口来实现图片的下载因为再源代码中已经没有办法显示他的url链接了

这样的访问也称为异步访问同步的话是在网页中直接看到源码

异步访问的优点是网页加载速度快

爬取网址：http://www.mmjpg.com/

一.获得主页上所有的图片链接地址

1.首先按f12 点击elemnts

Python爬虫实战之爬取网站全部图片(三)

2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片

Python爬虫实战之爬取网站全部图片(三)

3.获得url 如下图

Python爬虫实战之爬取网站全部图片(三)

4.显示控制台为了验证xpath是否正确

Python爬虫实战之爬取网站全部图片(三)

5.通过xpath获得href和名字

Python爬虫实战之爬取网站全部图片(三)

这里可以看到一共获得了15个这样的地址为什么是15个呢

因为主页上的主图就15个所以这里获得的没有问题那么留着

6.获得图片的url.

7.获得接口地址.

找个图进入之后我们可以看到下方有页面选择然后还一个全部图片

如果按照第一篇文章的方法来的话肯定是点击一页然后下载

这样的话效率非常低

但是其他又给我们提供好了一个接口等于

只要点击全部图片就可以返回接口数据

这里我们需要获得第一张的图片地址为后面的操作做准备

Python爬虫实战之爬取网站全部图片(三)

8.构造图片名称,实现下载.

这里是重点了：

其实正常来说已经是看js代码的但是因为程序会自己按照js里写的代码来执行，而且既然是异步那么他肯定也是需要发包的那么我们只要截取他发布的地址就可以实现获得这个接口清理的目的有就是为了能看清楚发的什么包

首先点击network 点击那个清理的

Python爬虫实战之爬取网站全部图片(三)

然后点击全部图片

Python爬虫实战之爬取网站全部图片(三)

可以看到他发了一个data.php的一个包出去而且是xhr正说明是使用ajax

那么我们看一下他返回了什么

Python爬虫实战之爬取网站全部图片(三)

我们发现他返回了一堆好像看不懂的东西但是有感觉好像哪里有见过其中的几个

其实只要看左边的后两个图的名字就知道了

左边这两个图的名字是2ide 3i9p 正好发现和这个返回的值中第二个和第三个值有一样的部分那会不会是巧合呢为了验证我们的猜想我们回到elements选项卡

Python爬虫实战之爬取网站全部图片(三)

可以看到好像和我们的猜想是一样的

但是他只返回了2个字符但是图片是需要4个字符

我们仔细看一下其实他是有规律的

会发现第一个字符是按照顺序排下来的也就是说有多少个图片他就会从1一直到多少

第二个字符是固定的值i

这样的话我们自己就可以构造这个图片的名字直接实现发包进行下载也就完全不用每次都访问每页再下载了

9.获取下图图片的请求头

Python爬虫实战之爬取网站全部图片(三)

如果出现上图这样一般是缓存导致的最好的清理缓存把所有的页面关闭

使用无痕重新访问就可以看到全部的请求头了

Python爬虫实战之爬取网站全部图片(三)

10. 我们这里没有获得一共有多少页，因为在ajax中返回的就是对应的值只要把这里面的所有的字符串用完就下载完毕了。

二．编写代码实现下载

1. 需要用到的库有:

Requests lxml 如果没有安装的请自己安装一下

2. IDE : pycharm

3.python版本：2.7.15

4.代码实现的是多线程下载，多线程的好处就不用我多说了。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from threading import *
import requests
from lxml import etree
import os

gHeads = {
“User-Agent”:”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36″,
}

nMaxThread = 3 #需要几条线程就设置几条
ThreadLock = BoundedSemaphore(nMaxThread)

class PhotoThread(Thread):
def __init__(self,url):
Thread.__init__(self)
self.url = url

def run(self):
try:
PhotoName,firsturl,uid = self.GetPhotoInfo(self.url)
if uid :
secName = self.GetPhotoRandomName(uid)
if secName:
self.DownloadPhoto(firsturl,secName,uid,PhotoName)
finally:
ThreadLock.release()

def GetPhotoInfo(self,url):
heads = {
“Host”: “www.mmjpg.com”,
“Referer”: “http://www.mmjpg.com/”
}
heads.update(gHeads)
try:
html = requests.get(url,headers=heads)
if html.status_code == 200:
html.encoding=”utf-8″
xmlContent = etree.HTML(html.text)
PhotoName = xmlContent.xpath(“//div[@class=’article’]/h2/text()”)[0] #这里使用的h2标签中的内容并没有使用文章中的值好处可以自己感受下
imgUrl = xmlContent.xpath(“//div[@class=’content’]/a/img/@src”)[0]
firstImgUrl = imgUrl[:imgUrl.rfind(“/”)]
uid = firstImgUrl[firstImgUrl.rfind(“/”)+1:]
return PhotoName,firstImgUrl,uid
except:
return None,None

def GetPhotoRandomName(self,uid):
heads = {
“Host”:”www.mmjpg.com”,
“Referer”:”http://www.mmjpg.com/mm/%s”%(uid)
}
heads.update(gHeads)
try:
html = requests.get(“http://www.mmjpg.com/data.php?id=%s&page=8999″%(uid),headers=heads).text
retName = html.split(“,”)
return retName
except:
return None

def DownloadPhoto(self,firstUrl,randomName,uid,photoName):
#http://img.mmjpg.com/2018/1367/2ig6.jpg
heads = {
“Host”: “img.mmjpg.com”,
“Referer”:”http://www.mmjpg.com/mm/%s”%(uid)
}
heads.update(gHeads)
savePath = “./photo/%s”%photoName
if not os.path.exists(savePath):
os.makedirs(savePath)
for i in xrange(len(randomName)):
url = “%s/%si%s.jpg”%(firstUrl,i+1,randomName[i])
html = requests.get(url,headers=heads)
print “Download : %s/%d.jpg”%(photoName.encode(“gbk”),i+1)
if html.status_code == 200 :
with open(“%s/%d.jpg”%(savePath,i+1),”wb”) as f:
f.write(html.content)
#sleep(0.2)
else:
return None

def main():
while True:
try:
nMaxPage = int(raw_input(“请输入需要几页: “))
if nMaxPage > 0:
break
except ValueError:
continue
for i in xrange(nMaxPage):
url = “http://www.mmjpg.com/” if i == 0 else “http://www.mmjpg.com/home/%d”%(i+1)
html = requests.get(url,headers=gHeads).text
xmlContent = etree.HTML(html)
urlList = xmlContent.xpath(“//div[@class=’pic’]/ul/li/a/@href”)
for url in urlList:
ThreadLock.acquire()
t = PhotoThread(url)
t.start()

if __name__ == ‘__main__’:
main()

5.成果

Python爬虫实战之爬取网站全部图片(三)

Post Views: 49

一.获得主页上所有的图片链接地址

1.首先按f12 点击elemnts

2.点击下图的小箭头 选择主图中的任意一个图片 那我们这里点击第一个 图片

3.获得url 如下图

4.显示控制台 为了验证xpath是否正确

5.通过xpath获得href和名字

6.获得图片的url.

7.获得接口地址.

8.构造图片名称,实现下载.

9.获取下图图片的请求头

10. 我们这里没有获得一共有多少页，因为在ajax中返回的就是对应的值 只要把这里面的所有的字符串用完就下载完毕了。

二．编写代码实现下载

1. 需要用到的库有:

2. IDE : pycharm

3.python版本 ：2.7.15

4.代码实现的是多线程下载，多线程的好处 就不用我多说了。

5.成果

2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片

4.显示控制台为了验证xpath是否正确

10. 我们这里没有获得一共有多少页，因为在ajax中返回的就是对应的值只要把这里面的所有的字符串用完就下载完毕了。

3.python版本：2.7.15

4.代码实现的是多线程下载，多线程的好处就不用我多说了。