爬虫框架scrapy介绍

Scrapy 是一个基于事件驱动 + 异步 I/O(Twisted) 的高性能爬虫框架,其核心设计目标是:

  • 高并发抓取(非阻塞)
  • 可扩展组件化架构
  • 清晰的数据流转模型

整体架构采用 分层 + 调度驱动模型,核心组件如下:

组件 职责
Engine(引擎) 调度所有组件,控制数据流
Scheduler(调度器) 请求队列管理(去重、优先级)
Downloader(下载器) 负责 HTTP 请求
Spider(爬虫) 解析响应,生成数据和新请求
Item Pipeline(管道) 数据处理(清洗、存储)
Downloader Middleware 下载请求/响应拦截
Spider Middleware Spider 输入输出处理

e23c5254485402ca44a815512a3bd4f4.png