您现在的位置是:Python分析网页并下载图片

Python分析网页并下载图片

Python 日期:2019-08-09点击:603
#!/usr/bin/python
# -*- coding: UTF-8 -*-

import requests
import re
import os
import urllib.request

from lxml import etree
import html

ROOT_DIR = 'dalian/'
IMG_DIR = ROOT_DIR + 'images/'

## 提取图片
def openOrder(ORDER_FILE):
    print(ORDER_FILE)
    # 打开文件
    fo = open(ORDER_FILE, "r")
    FILE_TEXT = fo.read()
    fo.close()
    # 提取图片地址
    html_text = etree.HTML(FILE_TEXT)
    #img_data = html_text.xpath("//div[class='imgList']/a/@href")
    img_data = html_text.xpath("//a/img//@src")
    for IMG_URL in img_data:
        print(IMG_URL)
        IMG_NAME = os.path.basename(IMG_URL)
        print(IMG_NAME)
        # 判断是否200
        request = requests.get(IMG_URL)
        httpStatusCode = request.status_code
        if(httpStatusCode == 200):
            urllib.request.urlretrieve(IMG_URL, IMG_DIR + IMG_NAME)
        #str=etree.tostring(index)
        #print(str)


# 循环查找文件
for maindir, subdir, file_name_list in os.walk(ROOT_DIR):
    for file_name in file_name_list:
        # print(file_name)
        if(file_name.startswith('app')):
            # print("YYYYYY")
            # 完整路径
            ORDER_FILE = os.path.join(maindir, file_name)
            openOrder(ORDER_FILE)
        #else:
            # print("NNNNNN")
标签: Python

站长简介

姓名:喻理
微信:yuli0927
邮箱:yuli0927@126.com
不懂业务的运维工程师不是一个好程序员。

分类

最新文章

热门文章