想要构建一套鉴黄系统,必须有大量的真实图片供计算机进行学习,以便于区分开正常图片和黄色图片。
近期有位程序员在Github上传了图片列表,里面包含了大量图片地址可以供计算机进行学习。
图片分为几类,正常图,性感图,SQ图等,在项目主页有具体的部署和使用方法。
注意,真人观看的话可能身体略有不适,不要在公共场合进行学习,并且注意补充营养。
https://github.com/alexkimxyz/nsfw_data_scrapper/tree/master/raw_data
各文件夹下的txt就是图片文件列表。
怎么批量下载呢
IDM你值得拥有,一键导入TXT文本 http://img2.youwant.info/upload/1901/918b73c01d73b946.png
厉害了,谢谢大佬指点
等一个大神打包下载
打不开啊
这一张张打开看?
打开TXT文件,全选,找一个可以通过URL上传图片的图床,之后等图床给你下载。不过图片地址有点多,考验图床服务器性能了。
正在努力学习中,我可是爱学习的好孩子
图片质量挺高的
看了几个都是老外,欣赏不了啊,也就不批零下载了
raw打开,右键全选复制,然后迅雷批量下载就好了
试过了,迅雷最多支持一次1000个链接。
特意写了个批量下载的java工具类 = =
老哥源码分享一下
wget -i了解一下
写个多线程下载,美滋滋
好多图片,有没有大佬打包链接
上层目录有个scripts脚本目录里有下载脚本
不会用啊
找一个linux环境,把整个项目下载下来,进到scripts目录,执行2开头那个脚本就行
我爱学习
手动滑稽
欧美的比较不喜欢看,有没亚洲的
我用IDM下了三天。连一个分类都没下载下来
怎么下的呀,是不是复制那些jpg的连接然后到idm新建任务然后复制进去下载啊,我光筛选都筛选了好久好久。。然后就放弃了。。
IDM和硬盘君要辛苦了
有运行说明很简单的。
Change working directory to scripts and execute each script in the sequence indicated by the number in the file name, e.g.:
$ bash 1_get_urls.sh # has already been run
$ find ../raw_data -name “urls_*.txt” -exec sh -c “echo Number of URLs in {}: ; cat {} | wc -l” \;
Number of URLs in ../raw_data/drawings/urls_drawings.txt:
25732
Number of URLs in ../raw_data/hentai/urls_hentai.txt:
45228
Number of URLs in ../raw_data/neutral/urls_neutral.txt:
20960
Number of URLs in ../raw_data/sexy/urls_sexy.txt:
19554
Number of URLs in ../raw_data/porn/urls_porn.txt:
116521
$ bash 2_download_from_urls.sh
$ bash 3_optional_download_drawings.sh # optional
$ bash 4_optional_download_neutral.sh # optional
$ bash 5_create_train.sh
$ bash 6_create_test.sh
$ cd ../data
$ ls train
drawings hentai neutral porn sexy
$ ls test
drawings hentai neutral porn sexy
http://img2.youwant.info/temp/1901/1e4ceb0efe3b6bc6.png
下载中
已经下载70000多张了,还有大概40000张就下载完了
下载完一个,一共下载了图片115567张
我写个爬虫脚本给大家
在哪呢
git clone https://github.com/alexkimxyz/nsfw_data_scraper.git
cd nsfw_data_scraper
find . -type f |xargs -i cat {}|xargs -i aria2c -c {}
搞定收工,嘻嘻!
怎么说呢。。。批量下载图片太多,电脑卡死了 !