爬虫是一种抓取网站数据的技术,对于需要大量数据的场景非常有用。在爬取网站数据时,经常需要获取并保存网页上的图片数据。本教程将介绍使用Python3中的requests库实现多图片爬取的方法,帮助学习者了解Python3 requests库的基本用法。
python
import requests
import os
定义要爬取的图片链接列表,并创建用于存储图片的文件夹
``` python
# 创建图片链接列表
url_list = ['https://www.example.com/image1.jpg', 'https://www.example.com/image2.jpg', 'https://www.example.com/image3.jpg']
if not os.path.exists('images'):
os.mkdir('images')3. 遍历图片链接列表,使用requests库从链接中获取图片,并将图片保存到文件夹中
python
for url in url_list:
response = requests.get(url)
# 获取图片名
img_name = url.split('/')[-1]
# 将图片写入文件
with open('images/' + img_name, 'wb') as f:
f.write(response.content)
```
下面是两个关于Python3 requests库实现多图片爬取的示例:
我们有一个存储了多个省份名称和图片链接的字典,需要从这个字典中获取所有的图片并保存。字典结构如下:
data_dict = {
'江苏': 'https://www.example.com/img/js.jpg',
'浙江': 'https://www.example.com/img/zj.jpg',
'广东': 'https://www.example.com/img/gd.jpg',
'山东': 'https://www.example.com/img/sd.jpg'
}
我们可以通过以下代码实现将这些图片下载到本地:
import requests
import os
# 创建用于存储图片的文件夹
if not os.path.exists('images'):
os.mkdir('images')
# 遍历字典,获取图片
for province, url in data_dict.items():
response = requests.get(url)
# 获取图片名
img_name = province + '.jpg'
# 将图片写入文件
with open('images/' + img_name, 'wb') as f:
f.write(response.content)
执行以上代码后,程序将会从字典中获取到四张图片,并保存到当前工作目录下的images文件夹中。
我们需要从一个包含多张图片的网站上爬取图片,并保存到本地。我们可以通过以下代码实现将这些图片下载到本地:
import requests
import os
from bs4 import BeautifulSoup
# 创建用于存储图片的文件夹
if not os.path.exists('images'):
os.mkdir('images')
# 请求目标网站
url = 'https://www.example.com/images/'
response = requests.get(url)
# 解析网站内容,获取所有图片链接
soup = BeautifulSoup(response.content, 'html.parser')
img_tags = soup.find_all('img')
img_urls = [img.get('src') for img in img_tags]
# 遍历图片链接列表,获取图片并保存
for url in img_urls:
response = requests.get(url)
# 获取图片名
img_name = url.split('/')[-1]
# 将图片写入文件
with open('images/' + img_name, 'wb') as f:
f.write(response.content)
执行以上代码后,程序将会从目标网站上解析出所有的图片链接,然后一一遍历,下载图片并保存到当前工作目录下的images文件夹中。
本教程介绍了使用Python3中的requests库实现多图片爬取的方法。通过学习本教程,可以了解requests库的基本用法,以及如何使用该库爬取网站上的图片数据,并将图片保存到本地。
本文链接:http://task.lmcjl.com/news/14769.html