3.1爬虫基础知识
第一步
了解什么是Scrapy,以及它能为您干什么。
在你的计算机上安装Scrapy。
编写您的第一个Scrapy项目。
通过玩预制的Scrapy项目,学习更多Scrapy相关知识。
基础概念
学习命令行工具,用于管理你的Scrapy项目。
编写规则去爬取你的网站。
使用Xpath从你的网页中提取数据。
在交互式环境中测试您的提取代码。
定义要抓取的数据。
使用提取的数据填充Item。
后处理并存储您抓取的数据。
使用不同的格式和存储输出您的抓取数据。
了解用于表示HTTP请求和响应的类。
一个很方便的类,用于提取要去往下一个页面的链接。
查看所有可能的异常及其含义。
内建服务
了解如何在Scrapy上使用Python的内置logging。
收集与您的爬虫相关的统计信息。
发生某些事件时,发送电子邮件通知。
使用内置的Python控制台检查正在运行的爬虫。
使用Web服务监视并控制爬虫。
解决特定问题
获取最常见问题的答案。
了解如何调试Scrapy Spider的常见问题。
了解如何使用contracts 测试爬虫。
熟悉一些Scrapy常见做法。
Tune Scrapy用于并行爬取多个不同域名的网站。
Using your browser’s Developer Tools for scraping
了解如何通过浏览器的开发人员工具进行抓取。
Selecting dynamically-loaded content
读取动态加载的网页数据。
了解如何查找并消除爬虫中的内存泄漏。
Downloading and processing files and images
下载与您抓取的item关联的文件和/或图像。
部署您的Scrapy Spider,并在远程服务器上运行它们。
基于负载动态调整爬虫的速率。
检查Scrapy如何在您的硬件上执行。
Jobs: pausing and resuming crawls
了解如何暂停和恢复大型爬虫。
扩展Scrapy
了解Scrapy架构。
自定义如何请求和下载页面。
自定义你的爬虫的输入和输出。
扩展Scrapy,自定义功能
在extensions 和middlewares 上使用Core Api来扩展Scrapy功能
查看所有可用信号以及如何使用它们。
快速将您抓取的item导出到文件(XML,CSV等)中。
Last updated
Was this helpful?