fastspider 是一款上手非常简单的爬虫框架, 在很多设计上参考scrapy框架, 相比scrapy更加轻便与上手。 目前fastspider框架功能正在逐渐的完善中, fastspider内置多种爬虫, 如下:
LightSpider
轻量级爬虫, 上手非常简答。基于内存队列进行任务处理, 适合于爬取数据量少的场景, 不支持断点续爬, 不支持分布式。
- Python 3.8.0+
- Works on Linux, Windows, macOS
From PyPi:
pip3 install fastspider
创建爬虫
fastspider startspider -s hello_spider 1/2
创建后的爬虫代码如下:
# encoding=utf-8
import fastspider
class HelloSpider(fastspider.LightSpider):
start_urls = ["http://www.baidu.com"]
def start_requests(self):
for url in self.start_urls:
yield fastspider.Request(url)
def parser(self, request, response):
print(response)
if __name__ == "__main__":
HelloSpider().start()
直接运行,打印如下:
<Response [200]>
无任务, 爬虫执行完毕
代码解释如下:
- start_requests: 生产任务
- parser: 解析器, 用于解析响应response