标签:javascript linux web-scraping autoscroll
我发现一个网站上有很多高质量的免费图像托管在Tumblr上(它说你想用主题图片做任何事情:P)
我在Ubuntu 12.04LTS上运行.我需要编写一个定期运行的脚本(比如说每天)并只下载之前没有下载过的图像.
附加说明:它有一个javascript自动滚动器,当你到达页面底部时会下载图像.
解决方法:
The fantastic original script done by TMS不再适用于新的unsplash网站.这是一个更新的工作版本.
#!/bin/bash
mkdir -p imgs
I=1
while true ; do # for all the pages
wget "https://unsplash.com/grid?page=$I" -O tmppage
grep img.*src.*unsplash.imgix.net tmppage | cut -d'?' -f1 | cut -d'"' -f2 > tmppage.imgs
if [ ! -s tmppage.imgs ] ; then # empty page - end the loop
break
fi
echo "Reading page $I:"
cat tmppage.imgs | while read IMG; do
# for all the images on page
TARGET=imgs/$(basename "$IMG")
echo -n "Photo $TARGET: "
if [ -f $TARGET ] ; then # we already have this image
echo "file already exists"
continue
fi
echo -n "downloading (PAGE $I)"
wget $IMG -O $TARGET
done
I=$((I+1))
done
标签:javascript,linux,web-scraping,autoscroll 来源: https://codeday.me/bug/20190715/1467616.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。