简介
话不多说,直接上操作
环境使用
- Python 3.8 解释器
- Pycharm 编辑器
所使用模块
- import re
- import os
- import requests >>> pip install requests
如果安装python第三方模块:
- in + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
- 在pycharm中点击Terminal(终端) 输入安装命令
基本思路流程:
- 发送请求 (这里都是get请求)
- 模拟浏览器,构造请求头headers
- 获取数据
- 解析数据
- 提取我们想要的内容(re匹配出需要的,建议直接再源码中复制需要的来进行匹配提前取)
- 保存数据
代码示例:
import requests # 用来发送请求模块<工具>
import re # 提取数据工具
import os # 操作系统文件的
"""获取彼岸壁纸的4k游戏页"""
# 保存路径
def save_path():
path = "imgs\\"
if not os.path.exists(path):
os.mkdir(path)
return path
# 获取页面
def get_page(page_url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36',
}
response = requests.get(url=page_url, headers=headers)
response.encoding = response.apparent_encoding
html = response
return html
# 解析页面获取需要的
def parse(html):
html_info = re.findall(r'<li><a href="(.*?)".*?alt="(.*?)" /><b>', html.text)
for link, title in html_info:
# https://pic.netbian.com/tupian/29887.html
link_url = 'https://pic.netbian.com' + link
second_html = get_page(link_url)
img_url = re.findall(r'id="img"><img src="(.*?)"', second_html.text)[0]
real_url = 'https://pic.netbian.com' + img_url
pic_data = get_page(real_url)
print(real_url, title)
pic_content = pic_data.content
path = save_path()
save(path, pic_content, title)
# 保存图片
def save(path, pic_content, title):
with open(path + title + '.jpg', mode='wb') as f:
f.write(pic_content)
if __name__ == '__main__':
for page in range(1, 3): # 获取的页数 1-2
# 这是因为网站没有index_1这个页面
if page == 1:
url = 'https://pic.netbian.com/4kyouxi/index.html' # 网站的链接
else:
url = f'https://pic.netbian.com/4kyouxi/index_{page}.html'
html_data = get_page(url)
parse(html_data)
图片上传图床地址: 带你去看
评论 (0)