豆瓣上妹子比较多,几年前我们分享的“请不要害羞”小组,
当时尺度就很大,没想到现在还在呢,豆瓣这个级别的网站很少有这么大尺度的了。
刚去逛了一圈,每天依旧有很多妹子发帖,而且很劲爆,
进入页面后,切换到“最热讨论”,基本上就是质量比较高的妹子图了。
还有一些关闭的群组,只能管理员邀请才能加入,尺度就更大了,大家多摸索。
几个热门群组:
会爬虫的把图片爬一下,一张一张看太费劲了。
豆瓣上妹子比较多,几年前我们分享的“请不要害羞”小组,
当时尺度就很大,没想到现在还在呢,豆瓣这个级别的网站很少有这么大尺度的了。
刚去逛了一圈,每天依旧有很多妹子发帖,而且很劲爆,
进入页面后,切换到“最热讨论”,基本上就是质量比较高的妹子图了。
还有一些关闭的群组,只能管理员邀请才能加入,尺度就更大了,大家多摸索。
几个热门群组:
会爬虫的把图片爬一下,一张一张看太费劲了。
怎样爬虫,有什么工具,谢谢。
https://www.lanzous.com/i1q6tkh
才采集十页就被知乎限制了。我只能帮到这了。
大佬
不是豆瓣嘛怎么变zhihu了?
求大神指点,怎么把图片爬下来
娃哈哈
我python爬下来了,怎么发给大伙呢?
可以要代码么
百度网盘吧。。
百度云分享
网盘,百度云,蓝凑云,谢谢大佬
你发给我,我用网盘共享啊
求百度云分享
百度网盘或者吃李连杰~
你爬下来,放到网盘啊,然后回分享下地址啊
切换成豆瓣app居然看不了了
可是我喜欢小胸啊。。。
求翻牌
本吧人才就是多哈,哈哈
python爬虫 懂的自取 顺便求个邀请码
import requests,re,os,json,threading,time,datetime
from bs4 import BeautifulSoup
# 图片下载
def downloadPicture(url,name,type):
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER”}
try:
# 设置30秒timeout
picture = requests.get(url=url, headers=headers, timeout=30)
# 写入文件
f = open(name + type, ‘wb’)
f.write(picture.content)
f.close()
except:
print(‘图片下载超时,正在下载下一张’)
# 创建文件夹 用来存放图片
def makedir(dirname):
if os.path.lexists(dirname):
os.chdir(dirname)
else:
os.makedirs(dirname)
os.chdir(dirname)
# 每秒打印线程数目
def pringThreadNumberEverySecond():
while(threading.activeCount()>1):
print(str(threading.activeCount()) + ‘actived thread’)
time.sleep(1)
#通过获取json来得到picture地址并组成list返回
# 关键字 起始页 结束页
def getShareList(timeStamp,group):
start = 0
pictureList = []
length = 1
while length != 0:
url = ‘https://www.douban.com/api/v2/group/’ + str(group) + ‘/topics?_ts=’+ str(timeStamp) +’&apikey=0ab215a8b1977939201640fa14c66bab&count=100&sortby=hot&start=’ + str(start)
headers = {“Accept”:”*/*”,”Accept-Encoding”:”br, gzip, deflate”,”Accept-Language”:”zh-Hans-CN;q=1, zh-Hant-CN;q=0.9, th-TH;q=0.8″,”Connection”:”close”,”Host”:”frodo.douban.com”,”User-Agent”:”api-client/0.1.3 com.douban.frodo/6.0.2 iOS/11.3 iPhone7,2 network/wifi”}
text = requests.get(url=url,headers=headers).text
jsonobj = json.loads(text)
topics = jsonobj[‘topics’]
length = len(topics)
start += length
print(“length” + str(length))
for list0 in topics:
pictureList.append(list0[‘url’])
pass
pass
return pictureList
# 下载堆糖网图片
def downloadDuitangPicture(keyword,startPage,endPage):
# 创建文件夹
makedir(keyword)
for page in range(startPage,endPage):
# 获取图片地址列表 100z张
pictureList = getPictureList(keyword,startPage,endPage)
# print(pictureList)
# 用户输入第1页 传进来的参数为0 ,为了显示一致,将0加回1,使图片命名页数为1
print(‘第’+str(page+1)+’页,获得图片数:’+str(len(pictureList)))
for count in range(0,len(pictureList)):
try:
# 用户输入第1页 传进来的参数为0 ,为了显示一致,将0加回1,使图片命名页数为1
name = str(keyword) + ‘_’ + str(page+1) + ‘_’ + str(count)
type = ‘.jpg’
# 多线程下载
mythread = threading.Thread(target=downloadPicture, args=(pictureList[count], name, type))
mythread.start()
# 打印线程名 和线程数目
print(‘thread name:’ + str(mythread.name))
print(str(threading.activeCount()) + ‘actived thread’)
# 设置线程为64 当线程数目超过64时阻塞当前线程
if(threading.activeCount()>=64):
mythread.join()
except:
print(print(‘当前(第’ + str(count) + ‘)图片下载超时,正在下载下一张’))
def downloadDoubanPicture(groupid):
# 创建文件夹
# makedir(keyword)
# 获取图片地址列表 100z张
timeStamp = int(time.time())
shareList = getShareList(timeStamp,groupid)
# print(pictureList)
# 用户输入第1页 传进来的参数为0 ,为了显示一致,将0加回1,使图片命名页数为1
print(‘链接数:’+str(len(shareList)))
for count in range(0,len(shareList)):
try:
# 多线程下载
mythread = threading.Thread(target=getPicUrl, args=(shareList[count],))
mythread.start()
# 打印线程名 和线程数目
print(‘thread name:’ + str(mythread.name))
print(str(threading.activeCount()) + ‘actived thread’)
# 设置线程为64 当线程数目超过64时阻塞当前线程
if(threading.activeCount()>=64):
mythread.join()
except:
print(print(‘当前(第’ + str(count) + ‘)图片下载超时,正在下载下一张’))
def getPicUrl(url):
headers = {“Host”:”m.douban.com”,”User-Agent”:”Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.0 Mobile/15E148 Safari/604.1″}
text = requests.get(url=url,headers=headers).text
soup = BeautifulSoup(text,’html.parser’)
datatid = soup.select(‘.reply-tool’)
tid = datatid[0][‘data-tid’]
imgs = soup.select(‘.image-wrapper img’)
for count in range(0,len(imgs)):
name = str(tid) + “-” + str(count)
downloadPicture(imgs[count][‘src’],name,’.jpg’)
print(imgs[count][‘src’])
# print(name)
if __name__ ==’__main__’:
downloadDoubanPicture(433459)#这里填豆瓣小组的id 如”请不要害羞”小组id为433459
pringThreadNumberEverySecond()
链接: https://pan.baidu.com/s/1hgCyr9RdCbkDqxstEEefvA 密码: rubk
需要的自取,都爬下来了,不过最热评论每天都会更新
已经废了
尴尬,那几个小组被我多爬几次就成了非公开小组了。。。进不去了