3.1爬虫基础知识

第一步

Scrapy at a glance
了解什么是Scrapy，以及它能为您干什么。
Installation guide
在你的计算机上安装Scrapy。
Scrapy Tutorial
编写您的第一个Scrapy项目。
Examples
通过玩预制的Scrapy项目，学习更多Scrapy相关知识。

基础概念

Command line tool
学习命令行工具，用于管理你的Scrapy项目。
Spiders
编写规则去爬取你的网站。
Selectors
使用Xpath从你的网页中提取数据。
Scrapy shell
在交互式环境中测试您的提取代码。
Items
定义要抓取的数据。
Item Loaders
使用提取的数据填充Item。
Item Pipeline
后处理并存储您抓取的数据。
Feed exports
使用不同的格式和存储输出您的抓取数据。
Requests and Responses
了解用于表示HTTP请求和响应的类。
Link Extractors
一个很方便的类，用于提取要去往下一个页面的链接。
Settings
了解如何配置Scrapy并查看所有可用设置.
Exceptions
查看所有可能的异常及其含义。

内建服务

Logging
了解如何在Scrapy上使用Python的内置logging。
Stats Collection
收集与您的爬虫相关的统计信息。
Sending e-mail
发生某些事件时，发送电子邮件通知。
Telnet Console
使用内置的Python控制台检查正在运行的爬虫。
Web Service
使用Web服务监视并控制爬虫。

解决特定问题

Frequently Asked Questions
获取最常见问题的答案。
Debugging Spiders
了解如何调试Scrapy Spider的常见问题。
Spiders Contracts
了解如何使用contracts 测试爬虫。
Common Practices
熟悉一些Scrapy常见做法。
Broad Crawls
Tune Scrapy用于并行爬取多个不同域名的网站。
Using your browser’s Developer Tools for scraping
了解如何通过浏览器的开发人员工具进行抓取。
Selecting dynamically-loaded content
读取动态加载的网页数据。
Debugging memory leaks
了解如何查找并消除爬虫中的内存泄漏。
Downloading and processing files and images
下载与您抓取的item关联的文件和/或图像。
Deploying Spiders
部署您的Scrapy Spider，并在远程服务器上运行它们。
AutoThrottle extension
基于负载动态调整爬虫的速率。
Benchmarking
检查Scrapy如何在您的硬件上执行。
Jobs: pausing and resuming crawls
了解如何暂停和恢复大型爬虫。
Coroutines
使用 coroutine syntax.
asyncio
Use asyncio and asyncio-powered libraries.

扩展Scrapy

Architecture overview
了解Scrapy架构。
Downloader Middleware
自定义如何请求和下载页面。
Spider Middleware
自定义你的爬虫的输入和输出。
Extensions
扩展Scrapy，自定义功能
Core API
在extensions 和middlewares 上使用Core Api来扩展Scrapy功能
Signals
查看所有可用信号以及如何使用它们。
Item Exporters
快速将您抓取的item导出到文件（XML，CSV等）中。

Previous2.1虚拟环境的安装与配置 Next3.2正则表达式

Last updated 5 years ago