标签:cloudflare php curl web-crawler
我想从网站(不是我自己的)抓取一些特定的值(例如,newstext).
file_get_contents()无效,可被php.ini阻止.
所以我试着用curl做,问题是:
我得到的只是来自cloudflare的重定向文本.
我的爬虫应该做的事情如下:
转到页面 – >等待5secs cloudflare重定向 – >卷曲页面.
有关如何在云端等待时间后抓取页面的任何想法? (在PHP中)
编辑:所以我尝试了很多东西,问题仍然是一样的..更具体:它只抓取cloudflare重定向页面. (所以我得到一个重定向到主机的页面,cloudflare在前面.当我在localhost上卷曲它需要localhost,所以重定向是不行的.)
5secs“卷曲”后是否无法开始保存returend数据?
解决方法:
“转到页面 – >等待5secs cloudflare重定向 – >卷曲页面.”
5秒插页式页面实际上要求在访问者通过检查之前启用JavaScript和Cookie,如果您使用爬虫或机器人访问该网站,这可能无法使用.
标签:cloudflare,php,curl,web-crawler 来源: https://codeday.me/bug/20191007/1866465.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。