抓取Web of Science经验分享

2021-04-06 10:03:00 阅读：304 来源： 互联网

受新加坡某科研机构委托，需要对国内469所高校，156个学科，25年内在中的“引文报告”（如下图示例）数据进行采集。检索次数超180万次。

该网站“需要登陆，并且会封账号”，具有很强的典型性，特对本网站的采集经验分享如下：

1. Web of Science必须登陆才能检索，而且同一个账号不能重复登陆，新的登陆会造成同一账号老的会话失效。

2. 同一账号的会话可以多线程使用，不会互相干扰检索结果。

3. 账号可能会被封，被封之后会提示“您帐户的 "漫游" 功能已被禁用”（如下图所示）。这个可能是Web of Science运维人工干预的，在我们的测试过程中，在相同的访问频率下，有的账号只能搜索一两万次就被封了，而有的却能搜索十几万次。在爬虫中我们加入了自动切换账号的功能，如果检测到账号被封则自动换用下一个账号，不需要人工介入。我们总共进行了超过180次的搜索，总共使用了25个账号。

4. 账号每日访问次数有限制，超过之后会提示“Server.IDLimit”之类错误（如下图所示），如果检测到账号被封则自动换用下一个账号，也不需要人工介入。

5. Cookie会不停的变动，每次查询网站都会返回新的Cookie，不能持续的使用老的Cookie（有时效性），否则一段时间后会出现Timeout问题。我们一开始以为是代理的问题，后来经过多次验证是因为Cookie变化了造成的，应该是触发了WAF的防护策略。在我们的爬虫中，如果连续检测到多次出现Timeout问题，爬虫自动重新登陆，即可恢复正常。

6. 每搜索满200次系统会提示“记录本次会话中所有检索的“检索历史” 列表已满”，造成检索失败。所以爬虫中需要每隔200次清空一下搜索结果。

7. 会出现搜索失败的情况，爬虫需要进行重试直至成功。

8. 可以不使用代理IP，我们采集的过程中未发现该系统对IP访问频率有限制。

9. 为了不对系统造成过重负担（Richard曾说过在采集别人网站的时候要心怀感恩），我们爬虫仅使用了5个线程。进行180万搜索，共耗时约20天。

10. 由于搜索需要大量时间，爬虫使用了缓存机制，防止客户修改字段后需要二次下载。

标签：检索,Web,账号,Science,爬虫,抓取,搜索,Cookie
来源： https://www.cnblogs.com/cuihongyu3503319/p/14620436.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

抓取Web of Science经验分享