爬虫框架scrapy介绍
Scrapy 是一个基于事件驱动 + 异步 I/O(Twisted) 的高性能爬虫框架,其核心设计目标是:
- 高并发抓取(非阻塞)
- 可扩展组件化架构
- 清晰的数据流转模型
整体架构采用 分层 + 调度驱动模型,核心组件如下:
| 组件 | 职责 |
|---|---|
| Engine(引擎) | 调度所有组件,控制数据流 |
| Scheduler(调度器) | 请求队列管理(去重、优先级) |
| Downloader(下载器) | 负责 HTTP 请求 |
| Spider(爬虫) | 解析响应,生成数据和新请求 |
| Item Pipeline(管道) | 数据处理(清洗、存储) |
| Downloader Middleware | 下载请求/响应拦截 |
| Spider Middleware | Spider 输入输出处理 |
