python爬取小姐姐,你懂的!(附源码+资源)

本文含有大量小姐姐,请理性观看。

首先,我们来展示一下成果。

文末有资源链接,可自行下载,

开始之前,让我们来几张小姐姐镇楼吧。

目标网站:www.win4000.com

分析目标网站,我们分类选择“美女壁纸”,随便点开一个大图,点击下一页,会不断的加载出各种风格的小姐姐,那么,这就是突破口。

我们只需要给一个初始的图片页面url,不断请求下一页,并保存每页的图片即可。

代码如下:

import random
import string
import requests
from lxml import etree
from time import sleep

def getimgurl(url):
    headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36"
    }

    a = requests.get(url=url, headers=headers).text

    tree = etree.HTML(a)
    # 当前图片的url
    imgurl =  tree.xpath('//div[@class="pic-meinv"]/a/img/@src')[0]
    img = requests.get(url=imgurl, headers=headers)
    imgName = id_generator()
    print(imgurl)

    # 保存图片
    with open("D://img//"+imgName+".jpg", "wb")as f:
        f.write(img.content)
    sleep(1)
    
    # 获取下一页的URL
    nextPage = tree.xpath('//div[@class="pic-next-img"]/a/@href')[0]
    print(nextPage)
    getimgurl(nextPage)


def id_generator(size=10, chars=string.ascii_uppercase + string.digits):
    # 获取随机字符串
    return ''.join(random.choice(chars) for _ in range(size))


if __name__ == '__main__':
    url = 'http://www.win4000.com/wallpaper_detail_177878.html'     # 初始的URL
    getimgurl(url)

代码很烂,将就着看,逻辑是没错的,毕竟不是专业的。

好了,最后上硬菜。

https://cloud.189.cn/t/ma67B3qqe2ye%EF%BC%88%E8%AE%BF%E9%97%AE%E7%A0%81%EF%BC%9Awe5a%EF%BC%89

有什么不懂的,欢迎私信。

发表评论

电子邮件地址不会被公开。 必填项已用*标注