Python批量下载网页图片详细教程
作者:佚名 来源:绿茶手机网 发布时间:2012-10-09

  很多朋友在网上查找批量下载图片的方法~发觉挺凌乱的,无从下手。这里绿茶小编就来跟大家分享下使用Python批量下载图片方法。

Python批量下载网页图片详细教程

 

Python 32bit   官方安装版

http://www.6686.com/soft/19115.html

Python 64位   官方最新版

http://www.6686.com/soft/19116.html

 

  Python核心编程(第二版) PDF高清电子版

 

  目标:爬取某个网站上n多页的链接,每个链接有n多张图片,每一页对应一个文件夹,每个文件夹包含n个链接所对应的文件夹。

  步骤1:获得网页的所有链接,访问所有链接,获得链接里的图片地址。

  步骤2:根据图片地址下载图片。

  下载jpg格式的图片其实很容易。

  1 socket = urllib2.urlopen(url)

  2 data = socket.read()

  3 with open(path, “wb“) as jpg:

  4 jpg.write(data)

  5 socket.close()

  其中url为图片地址,path为保存路径。

  完成这一步之后,简单的批量下载图片功能就完成了。

  但是,下载的过程中有几个问题。

  1、下载速度慢。

  我们打开网站的时候看到图片的速度在网速不是太慢的情况下其实也不慢,但是用这种方法下载一张图片要等很久,有时却很快。

  2、下着下着就卡在那里了。

  它就是卡在那里了,不知道要等到什么时候报错。

  后改进如下。

  1 #设定超时时间,单位为秒,放在程序开头即可

  2 timeout = 60

  3 socket.setdefaulttimeout(timeout)

  4

  5 #下载图片的时候

  6 time.sleep(10)#先sleep,再读取数据

  7 socket = urllib2.urlopen(urllib2.Request(imgurl))

  8 data = socket.read()

  9 socket.close()

  10 …

  其实这个改进当时在程序中的体现不是很明显,但是后来我又加入了一个东西:多线程。

  python的多线程有几种方法可以实现,通过这篇博文可以对此有所了解。

  在这里我采用继承threading.Thread的方法实现多线程。

  重载run方法。我这里是每下载一个图片就开一个线程(好像不是太好,囧……)。

  1 thread = Download()

  2 thread.imgurl = imgurl

  3 thread.path = path

  4 thread.start()

  这个多线程用上以后,整个程序简直就像开足了马力,开始大力地下载。没一会功夫就下载了100多M的图片!

  其实我一开始是有顾虑一个问题的,就是为什么线程sleep的时候能够偷偷地占用系统的时间?看看这篇文章的实验。

  也就是说,10条线程每个sleep10秒,结果也只是花了差不多10秒的时间。

  图片的下载速度很快,虽然中途有一些处理异常的网址,但是速度飞一般的快。(后来增加了一些异常处理)

  很快,开始出现异常了,大量的图片下载失败。

  研究了很久之后才发现,存储空间不足……

  于是,搬到一个10G空闲的分区,开始下载,改善异常处理。

  最终完成目标的时候大概完成了8G的下载量。不知道是不是流量太大了,今天老是断网……

  同时尝试了视频的下载,这个功能还有待发掘。

  教程到此结束~希望对大家有所帮助~

 

合集推荐

梦幻西游手游更多>>

绿茶梦幻西游手游下载合集专区提供梦幻西游手游、梦幻西游口袋版、梦幻西游手机版下载。我们还为大家准备了梦幻西游手游辅助、梦幻西游手游修改器等外挂下载可以帮助大家刷梦幻币、刷钱、修改、刷副本等。梦幻西游从...

H5游戏在线玩
相关阅读
共有0位网友发表了评论 网友评论
(请文明发言!)