最新微语
源源走丢了 1个月前
好像已经没有继续存在的意义了……
源源走丢了 1个月前
【高考全省前1%,爸妈吵了5天,觉得“孩...
源源走丢了 2个月前
整了个可爱的阿尼亚机箱摆件(之前风扇灯光...
源源走丢了 3个月前
前天的面试工作中,好巧不巧的面到了同专业...
源源走丢了 3个月前
垃圾电脑搞心态。 今天给公司的老电脑重...
Do you like me?
14
最新评论
jiyouzhan
这篇文章写得深入浅出,让我这个小白也看懂...
2个月前
源源走丢了
@黎夏:欢迎复制,都是想到一点加一点,慢...
6个月前
黎夏
@源源走丢了:哈哈哈,是你的介绍太好玩了...
6个月前
源源走丢了
@黎夏:你的也好玩
6个月前
黎夏
怎么做一个好玩的博客呢[smilies7...
6个月前
源源走丢了
@黎夏:😎欢迎~
7个月前
黎夏
学习,学习
7个月前
2973371522
个人介绍挺丰富的,又带着个性😏
12个月前
源源走丢了
@穆棱洲:快一年了才来打卡?💔💔💔
1年前
穆棱洲
无可奈何花落去,似曾相识燕归来。 沉舟...
1年前
评论排行

下载文件并保留原路径到本地脚本Python、Shell

源源走丢了 · 7个月前
2024-1-13 · 杂七杂八 · 372 · 0

记一下、记一下,免得又到处找。

Python脚本,进行了一下修改,读取同级目录中的url.txt文本,文本里一行一个资源地址。这样一来就可以在本机运行了。

# coding:utf-8
import requests
import os
import re

class ImgDownloader(object):

    # 文件下载(单图多图通用)
    def downloader(self, urls):
        if urls is not None and type(urls)!=str and len(urls) > 0:
            for url in urls:
                self.img_downloader(url)
        elif urls is not None and type(urls)==str and len(urls) > 0:
            self.img_downloader(urls)
        else:
            return

    # 文件下载(单图)
    def img_downloader(self, url):
        try:
            r = requests.get(url=url)
        except:
            print(404)
            return -1
        try:
            path_name, path, name = self._path_name(url)
            if not os.path.exists(path): # 判断路径是否存在
                os.makedirs(path, mode=0o755) # 不在则创建
            # os.chdir(path) # 打开路径文件
            with open(path_name, 'wb') as f:
                f.write(r.content)
        except:
            print(403)
            return -1

    # 文件下载(多图)
    def imgs_downloader(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.img_downloader(url)

    def _path_name(self, url):
        name = url.split("/")[-1]
        reobj1 = re.compile(r'''(?xi)\A
        ([a-z][a-zA-Z0-9+\-.]*:(//[^/?#]+)?)?
        ([a-zA-Z0-9\-._~%!$&'()*+,;=:@/]*)''')
        match = reobj1.search(url)
        if match:
            path_name = match.group(3).strip('/')
            path = match.group(3).rstrip(name).strip('/')
            return path_name, path, name
        else:
            return path_name, '', name


if __name__=="__main__":
    # 打开当前目录下的 url.txt 文件
    with open("url.txt", "r") as file:
        # 读取文件中的所有行,每行一个 URL
        root_url = tuple(line.strip() for line in file)
    # 创建 ImgDownloader 实例
    obj_spider = ImgDownloader()
    # 调用 downloader 方法下载图片
    obj_spider.downloader(root_url)

shell版本的放Linux里面运行,还得开虚拟机,占空间还麻烦,下完事还得再往物理机上下一次,Windows好像可以有办法运行sh来着,忘了,算了,不重要。

#!/bin/bash
# desc: download resource
# author: 十年后的卢哥哥
mydir=`pwd`
while read line
do
{
    if [ -n "$line" ]
    then
        cd $mydir
        url=$(echo "$line" | tr -d '\r')
        picdir=$(echo $url | sed -r 's/http:\/\///g')
        picname=$(echo ${picdir##*/})
        picpath=$(echo ${picdir%/*})
        mkdir -p $picpath
        cd $picpath
        wget -O $picname `echo $url`
    fi
}
done < $1
exit 0

sh运行方法是:sh download.sh url.txt。

有这个东西真是帮了我大忙啊!以后工作效率直接一整个拉满😁

参考文献:图片下载保留原路径(Python)

参考文献:Shell脚本实现批量下载资源并保留原始路径

January 13,2024 22:47:13
阅读372
撰写评论
人生而自由,却无往不在枷锁中。
00后 自由 晒不黑 游戏 学习ing 成长ing 白羊座
文章
29
微语
90
评论
23
人生成就

源源的人生成就