嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了 一下午的时间, 一个字母一个字母 对过去, 发现没有错, 就是爬不下来- -. 后来 在交流群里问大神, 大神们,说代码时间太久 不能用了, 然后就放弃了, 后来一段时间后又捡起来了. 在这 首先感谢我们组组长的指点, 同时还得感谢崔庆才大佬的教程.
老版本的源代码就不发了, 之所以不能爬, 是因为出现在 网页渲染的问题,导致,F12 的检查元素 看的代码, 和网页源代码有点区别. 在下面的代码里. 用到了 selenium 的一个 第三方的包, 关于这个包的安装,和教程,可以去看 https://www.cnblogs.com/BigFishFly/p/6380024.html 这个博客,崔庆才的教程 写的还好,如果不懂,可以来找我, 我有视频 哈哈哈.
好了不多说了, 福利来了- - 准备来波图片的- - 但是太刺激了 - - 哈哈哈 鼻血直流!!!
1 from selenium import webdriver 2 import urllib.request 3 import os 4 os.mkdir('0o') 5 os.chdir('0o') 6 7 url = 'http://jandan.net/ooxx' 8 true = True 9 i = 100 10 while true: 11 driver = webdriver.Chrome() 12 driver.get(url) 13 html = driver.page_source 14 html = str(html) 15 a = html.find('img src="') 16 b = html.find('.jpg', a, a + 255) 17 18 19 20 img_dizhi = [] 21 while a != -1: 22 23 if b != -1: 24 b = html.find('.jpg', a, a + 255) 25 26 img_dizhi.append(html[a + 9:b + 4]) 27 28 else: 29 b = a + 9 30 a = html.find('img src=', b) 31 32 for each in img_dizhi: 33 if each == '': 34 continue 35 filename = each.split('/')[-1] 36 response = urllib.request.urlopen(each) 37 mm_img = response.read() 38 with open(filename, 'wb') as f: 39 f.write(mm_img) 40 page = 50689400 41 page -= i 42 page = str(page) 43 url = 'http://jandan.net/ooxx/page-' + page + '#comments' 44 i -= 10 45 driver.close() 46 if i == 9: 47 true =False
本文链接:http://task.lmcjl.com/news/6703.html