多线程爬取某个网页的所有图片

本文最后更新于 2025年4月27日晚上

#coding=utf-8
import importlib
import sys
import urllib.request

from bs4 import BeautifulSoup, UnicodeDammit


def imageSpider(start_url):
    try:
        urls = []
        req = urllib.request.Request(start_url,headers=headers)
        data = urllib.request.urlopen(req)
        data = data.read()
        dammit = UnicodeDammit(data, ["utf-8", "gbk"])
        data = dammit.unicode_markup
        soup = BeautifulSoup(data, "lxml")
        images = soup.select("img")
        for image in images:
            try:
                src = image["src"]
                url = urllib.request.urljoin(start_url, src)
                if url not in urls:
                    urls.append(url)
                print(url)
                download(url)
            except Exception as err:
                print(err)
    except Exception as err:
        print(err)


def download(url):
    global count
    try:
        count = count+1
        if(url[len(url)-4] == "."):
            ext = url[len(url)-4:] 
        else:
            ext = ""
        req = urllib.request.Request(url, headers=headers)
        data = urllib.request.urlopen(req, timeout=100)
        data = data.read()
        fobj = open("images"+str(count)+ext, "wb")
        fobj.write(data)
        fobj.close()
        print("downloaded "+str(count)+ext)
    except Exception as err:
        print(err)


start_url = "https://blog.xinhaojin.top"
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"}
count = 0
importlib.reload(sys)
imageSpider(start_url)

在程序根目录下新建images文件夹即可

python 爬虫

#爬虫 #多线程

多线程爬取某个网页的所有图片

https://xinhaojin.github.io/2021/07/14/多线程爬取某个网页的所有图片/

作者

xinhaojin

发布于

2021年7月14日

许可协议

matplotlib动态画图上一篇

BeautifulSoup查找元素下一篇