一个python爬虫,爬取retractiondatabase的论文信息网站(http://retractiondatabase.org) 上的论文数据, 原代码爬取了时间2000/01/01--2021/01/01
直接运行Python文件spider.py,没有参数, 结果保存在同级目录run.log下,不同属性直接以$作分隔符,同一属性下的多个item以&作分隔符,注意最后可能会多余&。
- python 3.7
- selenium 3.141
使用selenium模拟浏览器,运行速度慢, 并且爬取数据不完全