📖
Notes
  • README
  • 编程学习
    • Java
      • Java基础
        • 10.1.
        • 7.2类与对象
        • 7.3对象的特殊函数
        • 7.4接口和抽象类
        • 7.5实现Iterable接口
        • 7.6继承
        • 7.7封装
        • 8.1.泛型
        • [Java Doc](编程学习/Java/Java基础/Java doc.md)
        • [Java IO](编程学习/Java/Java基础/Java IO.md)
      • Java性能调优
        • 3.2.pt-query-digest分析慢查询日志报告
        • 5.7.mysql其他几种优化注意点
        • [5.8.order by排序原理及优化思路](编程学习/Java/Java性能调优/5.8.order by排序原理及优化思路.md)
        • [6.2.group by索引失效案例&distinct案例演示](编程学习/Java/Java性能调优/6.2.group by索引失效案例&distinct案例演示.md)
        • 6.3.B-tree索引原理详解
      • Java架构师
        • Iwaf
        • Moluo Security
      • Java虚拟机
        • 1.1概述
        • 1.2常见的JVM
        • 1.3JVM总纲
        • 10.1.OOM与GC
        • 13.线程安全
        • 2.1内存
        • 2.1内存结构
        • 2.2线程运行诊断
        • 2.3本地方法栈
        • 2.4堆
        • 2.5堆内存诊断
        • 2.6堆内存诊断-jvisualvm
        • 2.7方法区
        • 2.8方法区内存溢出
        • 2.9运行时常量池
        • 3.0.class文件解析
        • 3.1.class文件有感
        • 7.1虚拟机类加载机制
      • Java高并发
        • 1.0高并发思路
        • 4.0线程安全性
        • 4.1JMeter入门
        • 4.1原子性
        • 4.2原子性-Atomic
        • 4.3原子性-锁
        • 4.4可见性
        • 4.5有序性
        • 5.1安全发布对象
        • 6.10安全共享对象策略
        • 6.1不可变对象
        • 6.4线程封闭
        • 6.5线程不安全的类与写法
        • 6.7同步容器
        • 6.9并发容器
        • 7.1J.U.C之AQS介绍
        • 7.2J.U.C值AQS-CountDownLatch
        • 7.3J.U.C值AQS-Semaphore
        • 7.4J.U.C值AQS-CyclicBarrier
        • 7.5J.U.C值AQS-ReentrantLock与锁
        • 8.1J.U.C-FutureTask
        • 8.3J.U.C-ForkJoin
        • 8.4J.U.C-BlockingQueue
        • 9.1线程池
      • Netty
        • 2.1.一个简单的socket例子
        • 2.1.推演netty的诞生
        • 2.3.Netty组件简单介绍
        • 3.1.服务端启动demo
        • 6.7.springboot整合netty
        • 7.16.FastDFS
        • 7.18.springboot整合fastdfs
      • Spring
        • 6.0.Spring-AOP
        • 6.1.切点API
        • 6.2通知API
      • [Spring Boot](编程学习/Java/Spring boot/README.md)
        • [Rabbit MQ](编程学习/Java/Spring boot/RabbitMQ/README.md)
          • [1.0RabbitMQ安装(docker)](编程学习/Java/Spring boot/RabbitMQ/1.0RabbitMQ安装(docker).md)
          • [1.1SpringBoot集成RabbitMQ](编程学习/Java/Spring boot/RabbitMQ/1.1SpringBoot集成RabbitMQ.md)
          • [2.0.AMQP协议](编程学习/Java/Spring boot/RabbitMQ/2.0.AMQP协议.md)
          • [2.1RabbitMQ概念](编程学习/Java/Spring boot/RabbitMQ/2.1RabbitMQ概念.md)
          • [2.2RabbitMQ安装](编程学习/Java/Spring boot/RabbitMQ/2.2RabbitMQ安装.md)
          • [2.3命令行与管控台](编程学习/Java/Spring boot/RabbitMQ/2.3命令行与管控台.md)
          • [2.4急速入门-消息生产与消费](编程学习/Java/Spring boot/RabbitMQ/2.4急速入门-消息生产与消费.md)
          • [2.5Exchange交换机](编程学习/Java/Spring boot/RabbitMQ/2.5Exchange交换机.md)
          • [2.6Binding绑定](编程学习/Java/Spring boot/RabbitMQ/2.6Binding绑定.md)
          • [3.10死信队列](编程学习/Java/Spring boot/RabbitMQ/3.10死信队列.md)
          • [3.1RabbitMQ的高级特性](编程学习/Java/Spring boot/RabbitMQ/3.1RabbitMQ的高级特性.md)
          • [3.4Confirn确认消息](编程学习/Java/Spring boot/RabbitMQ/3.4Confirn确认消息.md)
          • [3.5Return消息机制](编程学习/Java/Spring boot/RabbitMQ/3.5Return消息机制.md)
          • [3.6消费端自定义监听](编程学习/Java/Spring boot/RabbitMQ/3.6消费端自定义监听.md)
          • [3.7消费端限流](编程学习/Java/Spring boot/RabbitMQ/3.7消费端限流.md)
          • [3.8消费端ACK与重回队列](编程学习/Java/Spring boot/RabbitMQ/3.8消费端ACK与重回队列.md)
          • [3.9TTL队列消息](编程学习/Java/Spring boot/RabbitMQ/3.9TTL队列消息.md)
          • [4.1RabbitMQ高级整合应用](编程学习/Java/Spring boot/RabbitMQ/4.1RabbitMQ高级整合应用.md)
          • [4.2RabbitMQ整合Spring AMQP实战](编程学习/Java/Spring boot/RabbitMQ/4.2RabbitMQ整合Spring AMQP实战.md)
        • [核心技术篇](编程学习/Java/Spring boot/核心技术篇/README.md)
          • [1.1](编程学习/Java/Spring boot/核心技术篇/1.1.md)
          • [10.1解决跨域请求问题](编程学习/Java/Spring boot/核心技术篇/10.1解决跨域请求问题.md)
          • [2.1走向自动装配](编程学习/Java/Spring boot/核心技术篇/2.1走向自动装配.md)
          • [2.2Spring Framework手动装配-模式注解](编程学习/Java/Spring boot/核心技术篇/2.2Spring Framework手动装配-模式注解.md)
          • [2.3自定义模式注解](编程学习/Java/Spring boot/核心技术篇/2.3自定义模式注解.md)
          • [2.4模块装配](编程学习/Java/Spring boot/核心技术篇/2.4模块装配.md)
          • [2.5条件装配](编程学习/Java/Spring boot/核心技术篇/2.5条件装配.md)
          • [2.6自动装配](编程学习/Java/Spring boot/核心技术篇/2.6自动装配.md)
          • [3.1SpringApplication](编程学习/Java/Spring boot/核心技术篇/3.1SpringApplication.md)
          • [3.2SpringApplication准备阶段](编程学习/Java/Spring boot/核心技术篇/3.2SpringApplication准备阶段.md)
          • [3.3监听Spring Boot事件](编程学习/Java/Spring boot/核心技术篇/3.3监听Spring Boot事件.md)
          • [4.1Web MVC](编程学习/Java/Spring boot/核心技术篇/4.1Web MVC.md)
          • [4.2理解Spring Web MVC架构](编程学习/Java/Spring boot/核心技术篇/4.2理解Spring Web MVC架构.md)
          • [6.12自定义resolver实现](编程学习/Java/Spring boot/核心技术篇/6.12自定义resolver实现.md)
          • [6.4Web MVC REST处理流程](编程学习/Java/Spring boot/核心技术篇/6.4Web MVC REST处理流程.md)
          • [7.1渐行渐远的servlet](编程学习/Java/Spring boot/核心技术篇/7.1渐行渐远的servlet.md)
          • [工厂加载机制](编程学习/Java/Spring boot/核心技术篇/工厂加载机制.md)
        • [源码](编程学习/Java/Spring boot/源码/README.md)
          • [1.3StopWatch](编程学习/Java/Spring boot/源码/1.3StopWatch.md)
          • [10.1SpringBoot中使用的设计模式](编程学习/Java/Spring boot/源码/10.1SpringBoot中使用的设计模式.md)
          • [2.4.启动流程介绍](编程学习/Java/Spring boot/源码/2.4.启动流程介绍.md)
          • [3.1.初始化器解析](编程学习/Java/Spring boot/源码/3.1.初始化器解析.md)
          • [4.1.监听器解析](编程学习/Java/Spring boot/源码/4.1.监听器解析.md)
          • [5.1.Bean解析](编程学习/Java/Spring boot/源码/5.1.Bean解析.md)
        • [Spring Security权限注解](编程学习/Java/Spring boot/Spring Security权限注解.md)
        • [SpringContextUtils工具类](编程学习/Java/Spring boot/SpringContextUtils工具类.md)
        • [spring事务](编程学习/Java/Spring boot/spring事务.md)
        • [参数校验与异常处理](编程学习/Java/Spring boot/参数校验与异常处理.md)
        • [自定义Starter](编程学习/Java/Spring boot/自定义Starter.md)
        • [集成JPA](编程学习/Java/Spring boot/集成JPA.md)
        • [集成Keycloak](编程学习/Java/Spring boot/集成Keycloak.md)
        • [集成liquibase](编程学习/Java/Spring boot/集成liquibase.md)
        • [集成log4j2](编程学习/Java/Spring boot/集成log4j2.md)
        • [集成security](编程学习/Java/Spring boot/集成security.md)
        • [集成swagger](编程学习/Java/Spring boot/集成swagger.md)
        • [集成Thymleaf](编程学习/Java/Spring boot/集成Thymleaf.md)
      • [Spring MVC](编程学习/Java/Spring MVC/spring mvc.md)
      • [Spring Security](编程学习/Java/Spring Security/README.md)
        • [1.1项目搭建](编程学习/Java/Spring Security/1.1项目搭建.md)
        • [10.1从配置出发分析源码](编程学习/Java/Spring Security/10.1从配置出发分析源码.md)
        • [10.2.前后端分离开发](编程学习/Java/Spring Security/10.2.前后端分离开发.md)
        • [4.1.SpringSecurity核心功能](编程学习/Java/Spring Security/4.1.SpringSecurity核心功能.md)
        • [4.10.实现短信验证码登录](编程学习/Java/Spring Security/4.10.实现短信验证码登录.md)
        • [4.2Spring Security基本原理](编程学习/Java/Spring Security/4.2Spring Security基本原理.md)
        • [4.3自定义用户认证](编程学习/Java/Spring Security/4.3自定义用户认证.md)
        • [4.4个性化用户认证流程](编程学习/Java/Spring Security/4.4个性化用户认证流程.md)
        • [4.6认证流程源码级详解](编程学习/Java/Spring Security/4.6认证流程源码级详解.md)
        • [4.7图形验证码](编程学习/Java/Spring Security/4.7图形验证码.md)
        • [4.9.记住我](编程学习/Java/Spring Security/4.9.记住我.md)
        • [5.1.OAuth协议简介](编程学习/Java/Spring Security/5.1.OAuth协议简介.md)
        • [5.11.退出登录](编程学习/Java/Spring Security/5.11.退出登录.md)
        • [5.2.SpringSocial简介](编程学习/Java/Spring Security/5.2.SpringSocial简介.md)
        • [5.3.开发QQ登录](编程学习/Java/Spring Security/5.3.开发QQ登录.md)
        • [5.7微信登录](编程学习/Java/Spring Security/5.7微信登录.md)
        • [5.8.绑定和解绑](编程学习/Java/Spring Security/5.8.绑定和解绑.md)
        • [5.9.session管理](编程学习/Java/Spring Security/5.9.session管理.md)
        • [6.1.SpringSecurityOAuth简介](编程学习/Java/Spring Security/6.1.SpringSecurityOAuth简介.md)
        • [6.10.基于JWT实现SSO单点登录](编程学习/Java/Spring Security/6.10.基于JWT实现SSO单点登录.md)
        • [6.2.实现标准的OAuth服务提供商](编程学习/Java/Spring Security/6.2.实现标准的OAuth服务提供商.md)
        • [6.3.SpringSecurityOAuth核心源码解析](编程学习/Java/Spring Security/6.3.SpringSecurityOAuth核心源码解析.md)
        • [6.5.重构短信登录](编程学习/Java/Spring Security/6.5.重构短信登录.md)
        • [6.6.重构社交登录](编程学习/Java/Spring Security/6.6.重构社交登录.md)
        • [7.1.SpringSecurity授权简介](编程学习/Java/Spring Security/7.1.SpringSecurity授权简介.md)
        • [7.2.SpringSecurity源码解析](编程学习/Java/Spring Security/7.2.SpringSecurity源码解析.md)
        • [7.3.权限表达式](编程学习/Java/Spring Security/7.3.权限表达式.md)
        • [7.4.基于数据库RBAC数据模型控制权限](编程学习/Java/Spring Security/7.4.基于数据库RBAC数据模型控制权限.md)
      • 博客系统
        • 全文检索
        • 原型设计
        • 权限管理
        • 角色管理
        • 需求分析
      • 性能调优
        • 0.1.文档说明
        • 1.1.mysql性能调优
        • 11.1.jvm性能调优
        • 11.10.jvisualvm使用详解
        • 11.2.jvm运行参数-标准参数详解
        • 11.3.jvm运行参数-非标准参数详解
        • 11.5.jvm内存模型续&jstat命令详解
        • 11.6.jmap使用详解
        • 11.7.MAT工具使用详解
        • 11.9.jstack使用详解及定位死锁问题
        • 12.6.分代算法详解
        • 2.6.mysql慢查日志设置及测试
        • 3.1.mysqldumpslow用户详解及示例
        • 3.2.pt-query-digest
        • 3.6.利用pt-query-digest利器查找三大类有问题的SQL
        • 4.1.通过explain分析SQL执行计划
        • 5.2.慢查询的优化思路
        • 5.3.mysql三种join方式及执行计划详解
        • 6.5.索引失效情况案例详解
        • 6.6.数据库优化原则
      • Jsp
      • Servlet学习
    • Android
      • 基础库选型
        • 1.1.日志库-Logger
        • 1.10.附录-Android常用开源库
        • 1.2.网络操作库-volley
        • 1.3.数据库操作库-greenDao
        • 1.4.事件处理库-EventBus
        • 1.5.json库-fastjson
        • 1.6.工具类库-RxTools
        • 1.9.插件化库-RePlugin
      • 0.1文件命名方式
      • 0.2文件目录结构
      • 0.3基础模块创建
      • 1.1activity的基本使用
      • 1.2fragment的基本使用
      • 10.1.集成QMUI
      • 10.2.使用Aroute解耦
      • 10.3.干掉findById
      • 10.4.缓存的实现
      • 11.1.底部导航条的实现方式
      • 2.1.沉浸式布局
      • 3.1.首页的搭建
      • 3.2.网络请求组件开发
      • 4.0图片加载组件
      • 4.1universeImageLoader基本使用
      • 4.2自定义ImageLoader
      • 5.1.EventBus
      • Dialog Fragement
      • Tool Bar
      • 多渠道打包上线
      • 数据库操作
    • Electron
      • 12.1.Electron打包
      • [12.1.安装Electron builder](编程学习/Electron/12.1.安装Electron builder.md)
      • 12.2.为生产环境build代码
      • 12.3.添加配置文件
      • 12.4.调试整个Pack流程
      • 12.6.生成安装包
      • 12.7.Electron打包体积优化
      • 2.1.配置Electron开发环境
      • 2.2.进程和线程
      • 2.3.主进程和渲染进程
      • 2.4.创建BrowserWindow
      • 2.5.进程间通讯
      • 2.6.使用IPC进行通讯
      • 2.7.使用remote实现跨进程访问
      • 3.1.React简介和缘起
      • 3.10.Hook规则和其他
      • 3.2.配置React开发环境
      • [3.3.useState Hook](编程学习/Electron/3.3.useState Hook.md)
      • 4.2.将UI拆分成组件
      • 4.3.配置开发环境
      • 4.5.文件结构和代码规范
      • 5.1.为项目选择样式库
      • 5.2.FileSearch组件
      • 5.4.为项目选择图标库
      • 5.5.使用PropTypes检查属性类型
    • Hexo
      • Nex T
      • 使用hexo打造docs
    • Photo Shop
      • 1.0P图流程
      • 1.1Photoshop简介
      • 1.2Photoshop画笔
      • 1.3Photoshop抠像
      • 1.4Photoshop调色
    • Python
      • Django
        • 1.0.django的目录结构
        • 1.1.创建应用
        • 10.1.middleware
        • 11.0.常见问题
        • 3.2.配置表单页面
        • 3.3.orm介绍与model设计
        • 3.4.template与views的交互
        • 3.5.template语法及过滤器
        • 4.0.django-app设计
        • 4.2.apps目录建立
        • 5.1.django-admin
        • 5.2.xadmin
        • 5.3.xadmin的使用
        • 5.4.xadmin全局配置
        • 6.1.用户登录注册
        • 6.2.用form实现登录
        • 6.3.session和cookie自动登录机制
        • 6.4.用户注册
        • 6.5.找回密码
        • 6.6.django的登录认证
        • 6.7.用户头像上传
        • 7.1.templates模板继承
        • 7.2.media文件设置及使用
        • 7.3.列表分页
        • 7.4.FormModel
      • Django Rest Framework
        • 11.7.drf的缓存
        • 11.8.drf配置redis缓存
        • 11.9.drf的throttle设置api的访问速率
        • 12.3.第三方登录
        • 13.1.sentry实现错误日志监控
        • 14.3.序列化
        • 5.1.通过django的view实现api
        • 5.10.drf的过滤
        • 5.11.drf的搜索和排序
        • 5.3.通过drf的apiview实现api
        • 5.5.drf的modelserializer
        • 5.6.通过Mixin+GenericAPIView实现API
        • 5.7.通过Mixin+ViewSet实现API
        • 5.8.drf的ApiView、GenericView、Viewset对比
        • 5.9.drf的request和response
        • 7.1.drf的token登录和原理
        • 7.10.serializer和validator验证
        • 7.12.django信号量实现用户密码加密
        • 7.3.viewsets配置认证类
        • 7.4.json-web-token(jwt)的原理
        • 7.5.jwt方式完成用户认证
        • 7.8.drf实现短信验证码发送
        • 8.4.drf的权限验证
        • 9.1.drf的api文档自动生成
        • 9.2.动态设置serializer和permission获取用户信息
      • Python3基础
        • 1.1.配置pip国内镜像源
        • 10.1正则表达式
        • 10.2贪婪和非贪婪
        • 10.3python正则函数
        • 10.4JSON
        • 10正则表达式和Json
        • 11python的高级语法与用法
        • 13原生爬虫
        • 14.1request模块
        • 3.0.python的内置变量
        • 3.1.python内置函数
        • 4.0“组”
        • 5.0变量和运算符
        • 6.0分支、循环、条件与枚举
        • 6分支、循环、条件与枚举
        • 7.0包、模块、函数与变量作用域
        • 8Python函数
        • 9.1面向对象
        • 9.2偏函数
        • python疑问
        • 基本数据类型
      • Scrapy
        • 1.1.Scrapy简介
        • 2.1虚拟环境的安装与配置
        • 3.1爬虫基础知识
        • 3.2正则表达式
        • 4.0.爬虫快速入门
        • 4.1创建爬虫项目
        • 4.2调试
        • 4.6xpath基础语法
        • 4.7css选择器
        • 4.8编写spider完成抓取过程
        • [4.9.Item Pipeline](编程学习/Python/Scrapy/4.9.Item Pipeline.md)
        • 4.9item
        • 4.9itemloader
        • 5.1session和cookie自动登录机制
        • 5.2request模拟登录
        • Scrapy安装
        • 图片下载
      • Selenium 3
        • 1.0selenium环境搭建
        • 1.1selenium项目搭建
        • 2.0启动浏览器
        • 2.1判断
    • 前端
      • Angular
        • 1
        • 9
        • 10.1.开发自己的angular项目
        • 3.1使用AngularRoute导航
        • 3.2在路由时传递数据
        • 3.5路由守卫
        • 4.1依赖注入
        • 5.1数据绑定、响应式编程和管道
        • 5.6响应式编程
        • 5.7管道
        • 6.1组件间通讯
        • 6.5生命钩子
        • 7.1表单处理
        • 7.2响应式表单校验
        • 7.3表单的使用
        • 8.1.与服务器通讯
      • Angular打造企业级协作平台
        • 1.1.小技巧
        • 1.2.模块划分
        • 1.2.环境搭建
        • 1.3.UI搭建
        • 1.4.模块之间的相互引用
        • 10.1.常见问题
        • 2.0.模板代码-增删查改
        • 2.1.模板代码-新增
        • 2.2.模板代码-删除
        • 2.3.模板代码-查找
        • 2.4.模板代码-更新
        • 3.2.RxJs
        • 3.2.对话框使用指南
        • 4.1.前后端分离
        • Angular核心概念
      • CSS
        • 1.1.CSS基础
        • 1.2.选择器
        • 1.3.非布局样式
        • 2.1.CSS布局
        • 3.1.CSS效果
        • 4.1.CSS动画
        • 图片处理
        • 文本处理
      • Html
        • 1.1.Html常见元素和理解
        • 1.2.如何理解HTML
        • 1.3.HTML版本
        • 1.4.元素分类
        • 1.5.嵌套关系
        • 1.6.默认样式和reset
        • 1.7.HTML的意义是什么
      • Node Js
        • 4.2.处理Get请求
        • 4.3.处理Post请求
        • 4.4.处理http请求的综合示例
      • Type Script
      • 网站分析与展示
        • Media
          • 在线占位图片
        • Logo区制作
        • 盒子模型
        • 页面头部制作
        • 项目搭建
        • 首页布局分析
      • ES 6
    • 操作系统
      • [Centos Linux](编程学习/操作系统/Centos Linux/README.md)
        • [1.0查看发行版和内核版本](编程学习/操作系统/Centos Linux/1.0查看发行版和内核版本.md)
        • [1.1网络配置](编程学习/操作系统/Centos Linux/1.1网络配置.md)
        • [10.0实战-排查网络问题](编程学习/操作系统/Centos Linux/10.0实战-排查网络问题.md)
        • [11.1创建证书](编程学习/操作系统/Centos Linux/11.1创建证书.md)
        • [11.2curl](编程学习/操作系统/Centos Linux/11.2curl.md)
        • [11.3cloud-init](编程学习/操作系统/Centos Linux/11.3cloud-init.md)
        • [11.4实战部署ftp服务器](编程学习/操作系统/Centos Linux/11.4实战部署ftp服务器.md)
        • [11.5syslog日志服务](编程学习/操作系统/Centos Linux/11.5syslog日志服务.md)
        • [11.6搭建EFK](编程学习/操作系统/Centos Linux/11.6搭建EFK.md)
        • [12.1.linux小技巧](编程学习/操作系统/Centos Linux/12.1.linux小技巧.md)
        • [5.1ssh](编程学习/操作系统/Centos Linux/5.1ssh.md)
        • [6.0Linux常用命令](编程学习/操作系统/Centos Linux/6.0Linux常用命令.md)
        • [6.1软件操作命令](编程学习/操作系统/Centos Linux/6.1软件操作命令.md)
        • [6.2服务器硬件资源信息](编程学习/操作系统/Centos Linux/6.2服务器硬件资源信息.md)
        • [6.3文件操作命令](编程学习/操作系统/Centos Linux/6.3文件操作命令.md)
        • [6.4Linux文件编辑神器VIM](编程学习/操作系统/Centos Linux/6.4Linux文件编辑神器VIM.md)
        • [6.6防火墙的设置](编程学习/操作系统/Centos Linux/6.6防火墙的设置.md)
        • [6.7提权和文件上传下载操作](编程学习/操作系统/Centos Linux/6.7提权和文件上传下载操作.md)
        • [7.0Apache的安装](编程学习/操作系统/Centos Linux/7.0Apache的安装.md)
        • [7.1Apache的虚拟主机配置](编程学习/操作系统/Centos Linux/7.1Apache的虚拟主机配置.md)
        • [7.2Apache伪静态操作](编程学习/操作系统/Centos Linux/7.2Apache伪静态操作.md)
        • [7.3Nginx的基本操作](编程学习/操作系统/Centos Linux/7.3Nginx的基本操作.md)
        • [7.4Nginx的虚拟主机配置](编程学习/操作系统/Centos Linux/7.4Nginx的虚拟主机配置.md)
        • [7.5Nginx伪静态](编程学习/操作系统/Centos Linux/7.5Nginx伪静态.md)
        • [7.6Nginx的反向代理和负载均衡](编程学习/操作系统/Centos Linux/7.6Nginx的反向代理和负载均衡.md)
        • [7.7Nginx文档](编程学习/操作系统/Centos Linux/7.7Nginx文档.md)
        • [7.8.Naxsi](编程学习/操作系统/Centos Linux/7.8.Naxsi.md)
        • [7.8.nginx地域封禁](编程学习/操作系统/Centos Linux/7.8.nginx地域封禁.md)
        • [7.9.ModSecurity](编程学习/操作系统/Centos Linux/7.9.ModSecurity.md)
        • [8.1Mysql安装及链接](编程学习/操作系统/Centos Linux/8.1Mysql安装及链接.md)
        • [8.2Mysql设置允许远程连接](编程学习/操作系统/Centos Linux/8.2Mysql设置允许远程连接.md)
        • [8.3Mysql开启Genelog](编程学习/操作系统/Centos Linux/8.3Mysql开启Genelog.md)
        • [8.4新建用户和权限操作](编程学习/操作系统/Centos Linux/8.4新建用户和权限操作.md)
        • [8.5Mysql忘记root密码](编程学习/操作系统/Centos Linux/8.5Mysql忘记root密码.md)
        • [9.1安装nodejs](编程学习/操作系统/Centos Linux/9.1安装nodejs.md)
      • Cmd
        • 1.1.Windows注册表
        • 1.2.batch基本命令
        • 2.2.batch调用exe
        • 3.1.右键cmd
      • [Kali Linux](编程学习/操作系统/Kali Linux/README.md)
        • [10.1本地提权](编程学习/操作系统/Kali Linux/10.1本地提权.md)
        • [11.1无线渗透](编程学习/操作系统/Kali Linux/11.1无线渗透.md)
        • [11.2无线渗透](编程学习/操作系统/Kali Linux/11.2无线渗透.md)
        • [13.1.Web渗透](编程学习/操作系统/Kali Linux/13.1.Web渗透.md)
        • [13.2.扫描工具-Nikto](编程学习/操作系统/Kali Linux/13.2.扫描工具-Nikto.md)
        • [14.1密码破解](编程学习/操作系统/Kali Linux/14.1密码破解.md)
        • [18.1Metasploit简介](编程学习/操作系统/Kali Linux/18.1Metasploit简介.md)
        • [19.1.常见攻击](编程学习/操作系统/Kali Linux/19.1.常见攻击.md)
        • [2.1Kali Linux安装](编程学习/操作系统/Kali Linux/2.1Kali Linux安装.md)
        • [2.3Kali Linux基本命令](编程学习/操作系统/Kali Linux/2.3Kali Linux基本命令.md)
        • [20.1kali清除Windows开机密码](编程学习/操作系统/Kali Linux/20.1kali清除Windows开机密码.md)
        • [3.1kali网络配置及安装更新](编程学习/操作系统/Kali Linux/3.1kali网络配置及安装更新.md)
        • [3.2安装Java、显卡驱动、网卡补丁、](编程学习/操作系统/Kali Linux/3.2安装Java、显卡驱动、网卡补丁、.md)
        • [3.7虚拟专用网络](编程学习/操作系统/Kali Linux/3.7虚拟专用网络.md)
        • [3.8洋葱路由](编程学习/操作系统/Kali Linux/3.8洋葱路由.md)
        • [4.1.DVWA靶机搭建](编程学习/操作系统/Kali Linux/4.1.DVWA靶机搭建.md)
        • [5.1基本工具netcat](编程学习/操作系统/Kali Linux/5.1基本工具netcat.md)
        • [5.2基本工具wireshark](编程学习/操作系统/Kali Linux/5.2基本工具wireshark.md)
        • [5.3基本工具TCPDUMP](编程学习/操作系统/Kali Linux/5.3基本工具TCPDUMP.md)
        • [6.1信息收集](编程学习/操作系统/Kali Linux/6.1信息收集.md)
        • [6.1被动信息收集](编程学习/操作系统/Kali Linux/6.1被动信息收集.md)
        • [6.3搜索引擎](编程学习/操作系统/Kali Linux/6.3搜索引擎.md)
        • [6.4其他信息收集途径](编程学习/操作系统/Kali Linux/6.4其他信息收集途径.md)
        • [8.1漏洞扫描](编程学习/操作系统/Kali Linux/8.1漏洞扫描.md)
        • [8.2NMAP](编程学习/操作系统/Kali Linux/8.2NMAP.md)
        • [8.3NESSUS](编程学习/操作系统/Kali Linux/8.3NESSUS.md)
      • Shell
        • 2.1变量替换与测试
        • 2.2数值比较和字符串比较
    • 数据库
      • Elastic Search
        • [Elastic Search C Url](编程学习/数据库/ElasticSearch/ElasticSearch cUrl.md)
        • ElasticSearch分页
        • ElasticSearch博客
        • ES
        • 集成
      • Mysql
        • 11.1.常见问题
        • 3.0基准测试
        • 6.1数据库索引优化
        • 6.2安装演示数据库
        • 6.3索引优化策略
        • 6.4索引优化排序
        • 6.5索引优化锁
        • 7.0SQL查询优化
        • 7.1获取有性能问题SQL的三种方式
        • 7.2慢查询日志介绍
        • 乐观锁和悲观锁
        • 数据库锁的排查方式
      • Redis
        • 1.0Redis
        • 1.1redis安装
        • 11.2缓存的受益与成本
        • [2.0Redis API的使用和理解](编程学习/数据库/Redis/2.0Redis API的使用和理解.md)
        • 2.10集合
        • 2.11有序集合
        • 2.2通用命令
        • 2.3数据结构和内部编码
        • 2.4单线程
        • 2.5字符串
        • 2.6哈希
        • 2.8列表
        • 3.0Redis客户端
        • 3.1java客户端
        • 4.0Redis其他功能
        • 4.2慢查询
        • 5.0Redis持久化的取舍和选择
        • 7.0Redis复制的原理和优化
    • 测试
      • 1.1单元测试
      • 10.1.性能测试
      • 2.1单元测试入门
      • 2.3单元测试常用情景
      • 2.4单元测试面临的问题
      • 2.5单元测试示例
      • 3.1单元测试之报告查看
      • 4.1自动化测试
      • 4.2Selenium用法详解
    • 算法
      • 加密算法
        • 1.1对称加密算法DES
        • 1.2对称加密算法3DES
        • 1.3对称加密算法AES
        • 1.4对称加密算法PBE
      • 1.1.冒泡排序
      • 跳出命题者所画之圈
    • 网络
      • Cisco
        • 1.0学习地址
        • 3.0思科之基础命令集
        • 4.0路由
        • 4.1静态路由
        • 5.0交换
        • 5.2vlan
        • 5.3生成树协议STP
        • 6.1NAT-PPP-DHCP
        • 7.0HSRP协议
        • ACL
        • PBR
        • Route Map
        • 交换机常用命令
        • 思科设备插槽板块命令方式
        • 路由器常用命令
      • [Cisco Packet Tracer](编程学习/网络/Cisco Packet Tracer/README.md)
        • [1.0命令](编程学习/网络/Cisco Packet Tracer/1.0命令.md)
      • Wireshark
        • 1.1当我发了一个ping包
        • Ethernet协议分析
        • 经验
      • 网络基础
        • 1.9网络的构成要素
        • 10.0交换网络基础
        • 11.0STP原理与配置
        • 13.0IP路由基础
        • 14.0DHCP原理与配置
        • 3.1数据链路
        • 4.1IP协议
        • 4.2IP划分
        • 5.0IP编址
        • 9.0VRP基础
        • 9.1命令行基础
      • Ensp
    • 设计模式
      • 1.1如何优雅的创建对象
      • [1.3Singleton Pattern(单例模式)](编程学习/设计模式/1.3Singleton Pattern(单例模式).md)
      • [1.4Builder Pattern(建造者模式)](编程学习/设计模式/1.4Builder Pattern(建造者模式).md)
      • [1.5Prototype Pattern(原型模式)](编程学习/设计模式/1.5Prototype Pattern(原型模式).md)
      • 2.1打算重构代码结构了么?
      • [2.2Adapter Pattern(适配者模式)](编程学习/设计模式/2.2Adapter Pattern(适配者模式).md)
      • [2.3Bridge Pattern(桥接模式)](编程学习/设计模式/2.3Bridge Pattern(桥接模式).md)
      • [2.4Filter Pattern(过滤器模式)](编程学习/设计模式/2.4Filter Pattern(过滤器模式).md)
      • [2.5Composite Pattern(组合模式)](编程学习/设计模式/2.5Composite Pattern(组合模式).md)
      • [2.6Decorator Pattern(装饰器模式)](编程学习/设计模式/2.6Decorator Pattern(装饰器模式).md)
      • [2.7Facade Pattern(外观模式)](编程学习/设计模式/2.7Facade Pattern(外观模式).md)
      • [2.8Flyweight Pattern(享元模式)](编程学习/设计模式/2.8Flyweight Pattern(享元模式).md)
      • [2.9Proxy Pattern(代理模式)](编程学习/设计模式/2.9Proxy Pattern(代理模式).md)
      • [3.1Chain Of Responsibility Pattern(责任链模式)](编程学习/设计模式/3.1Chain Of Responsibility Pattern(责任链模式).md)
      • [3.2Command Pattern(命令模式)](编程学习/设计模式/3.2Command Pattern(命令模式).md)
      • [3.3Interpreter Pattern(解释器模式)](编程学习/设计模式/3.3Interpreter Pattern(解释器模式).md)
    • 软件设计师
      • 1.0数据的表示
      • 1.1数值的表示范围
      • 1.2计算机结构
      • 1.3计算机体系结构分类-Flynn
      • 1.4流水线
      • 1.6层次化存储结构
      • 1.7主存-编址与计算
      • 2.0操作系统
      • 2.1进程管理
      • 2.2存储管理
      • 2.3作业、文件、设备管理
      • 3.0数据库系统
      • 3.1三级模式-两层映射
      • 3.2E-R模型
      • 3.3关系代数
      • 3.4规范化理论
      • 3.5SQL语句
      • [4.1OSI RM七层模型](编程学习/软件设计师/4.1OSI RM七层模型.md)
      • 4.2TCPIP模型
      • 4.3IP地址、子网划分
      • 4.4网络规划和设计
      • 4.5对称加密技术
      • 4.6网络安全
      • 5.1软件开发模型
      • 5.2软件开发方法
      • 5.3软件测试
      • 5.4软件维护
      • 6.1面向对象的基本概念
      • 7.1数据结构与算法基础
      • 7.3树与二叉树
      • 7.4图
      • 8.1算法
      • 8.1编译过程
      • 8.2UML
      • Untitled
    • 部署运维虚拟化
      • Ansible
        • 3.1.Ansible简介
        • 3.2.Ansible安装
        • [3.3.Ansible playbooks入门和编写规范](编程学习/部署运维虚拟化/ansible/3.3.Ansible playbooks入门和编写规范.md)
        • [3.4.Ansible playbooks常用模块](编程学习/部署运维虚拟化/ansible/3.4.Ansible playbooks常用模块.md)
        • 3.5.Ansible变量
      • Docker
        • 1.0容器技术和docker简介
        • 1.docker
        • 10.1docker部署dnsmasq
        • 10.2docker部署gitlab
        • 10.3docker部署wordpress
        • 10.4.docker部署SpringBoot项目
        • 10.5.docker部署angular项目
        • 2.0docker环境的各种搭建方法
        • 3.0docker的镜像和容器
        • [3.3diy一个base image](编程学习/部署运维虚拟化/docker/3.3diy一个base image.md)
        • 3.5构建自己的镜像
        • 3.6dockerfile语法梳理及最佳实践
        • 3.7镜像的发布
        • 3.8Dockerfile实践
        • 3.9容器的操作
        • 4.0docker的网络
        • 4.6容器的端口映射
        • 5.0docker的持久化存储和数据共享
        • [5.1数据持久化之Data Volume](编程学习/部署运维虚拟化/docker/5.1数据持久化之Data Volume.md)
        • [5.2数据持久化之bind Mounting](编程学习/部署运维虚拟化/docker/5.2数据持久化之bind Mounting.md)
        • [5.3bind Mounting实战](编程学习/部署运维虚拟化/docker/5.3bind Mounting实战.md)
        • [6.1.Docker Compose简介](编程学习/部署运维虚拟化/docker/6.1.Docker Compose简介.md)
        • [6.2.Docker Compose的安装](编程学习/部署运维虚拟化/docker/6.2.Docker Compose的安装.md)
        • [6.3.Docker Compose多容器部署](编程学习/部署运维虚拟化/docker/6.3.Docker Compose多容器部署.md)
        • [7.0容器编排docker swarm](编程学习/部署运维虚拟化/docker/7.0容器编排docker swarm.md)
        • 9.0容器编排kubernetes
        • 虚机安装
      • Jenkins
        • Jenkins安装
      • Kubernetes
        • 1.Kubernetes简介
        • 10.1ingress
        • 10.4共享存储
        • 11.1CICD
        • 12.1ServiceMesh
        • 12.2Istio架构和原理
        • 12.4Istio核心功能实践-部署bookinfo_batch
        • 12.5Istio核心功能实践-智能路由
        • 12.6Istio核心功能实践-指标收集和查询
        • 12.6Istio网格可视化
        • 13.0常见问题
        • 2.1Kubernetes集群搭建-kubeadm
        • 2.2Kubernetes集群搭建-RKE
        • 2.3Kubernetes集群搭建问题总结
        • 2.4kubernetes认证的密码学原理
        • 2.Kubernetes集群搭建
        • 3.pod介绍
        • 4.Replicaset和ReplicationController
        • 5.Deployment
        • [6.k8s基础网络Cluster Network](编程学习/部署运维虚拟化/Kubernetes/6.k8s基础网络Cluster Network.md)
        • 7.容器的基本监控
        • 8.4Label-小标签大作为
        • 9.1健康检查
        • 9.2Ready检查
        • 9.3pod的调度
        • 9.4部署策略详解
        • 9.5深入Pod
        • 云原生技术
      • Openstack
        • 网关、DNS、子网掩码、MAC地址、DHCP
      • 微服务
      • Terraform
  • 代码问题
    • Angular
    • Docker
    • Gradle
    • Javaweb
    • JPA
    • 数据库
  • 工具使用
    • Git
      • [Git Submodule](工具使用/git/Git Submodule.md)
      • Git
    • Gradle
      • 1.1.Gradle的基本使用
      • 2.1.Gradle使用私服
    • Idea
      • [Easy Code插件基础](工具使用/Idea/Easy Code插件基础.md)
      • [Easy Code插件模板](工具使用/Idea/Easy Code插件模板.md)
      • [Easy Code插件模板angular版](工具使用/Idea/Easy Code插件模板angular版.md)
      • Idea使用
      • Idea如何一个窗口多个项目
      • Idea实现docker镜像部署
      • pycharm使用帮助
      • pycharm远程调试
      • 连接docker
      • 阅读源码的正确姿势
    • Linux
      • ssh允许密码登录
      • ssh连接
      • 使用中遭遇的问题
    • Maven
      • 1.0.Maven简介
      • 2.0.maven私服搭建
      • 2.1.maven私服基本使用
    • Vscode
      • vscode安装
      • vscode连接远端调试
      • 使用centos搭建jumpserver环境
      • 文档阅读说明
    • 开发环境搭建
      • 1.0.软件列表
      • 2.0.设置环境变量
    • Android Studio
    • B Compare
    • Chrome
    • GNS 3
    • IDM
    • Lombok
    • Navicat
    • Node Js
    • Office
    • Postman
    • Setupvpn
    • Sublime
    • V Mvare
    • Windows
    • 搜索引擎
  • 思维碎片
    • Bean设计
    • 一些异常和返回体的思考
    • 代码经验
    • 转正答辩
  • 经历攻略
    • 2019-05-04当我开始写专利
    • PPT规约
    • 加入CSDN的一天
    • 呈现的艺术
    • 当我拥有云服务器的一天
    • 当我重回Android的一天
    • 敏捷开发概念模型
    • 自我评价
    • 英语日记
    • 软考
    • 面试题
Powered by GitBook
On this page
  • Scrapy教程
  • 创建一个新的Scrapy项目
  • 我们的第一个Spider
  • 如何运行我们的spider
  • start_requests方法的快捷方式
  • 提取数据
  • XPath:简要介绍
  • 提取名言和作者
  • 在我们的spider中提取数据
  • 存储抓取的数据

Was this helpful?

  1. 编程学习
  2. Python
  3. Scrapy

4.0.爬虫快速入门

Previous3.2正则表达式Next4.1创建爬虫项目

Last updated 4 years ago

Was this helpful?

Scrapy教程

在本教程中,我们假设您的系统上已经安装了Scrapy。如果未安装Scrapy,请参阅。

我们将爬取网站,该网站列出了著名作家的名言。

本教程将指导您完成以下任务:

  1. 创建一个新的Scrapy项目

  2. 编写spider ,爬取网站并提取数据

  3. 使用命令行导出抓取的数据

  4. 更改spider 以递归地爬取链接

  5. 使用spider 参数

创建一个新的Scrapy项目

在开始爬取网站之前,您将必须建立一个新的Scrapy项目。进入你将存储你代码的地方并运行:

scrapy startproject tutorial

这将创建一个名为tutorial的目录,其包含以下内容:

tutorial/
    scrapy.cfg            # deploy 配置文件

    tutorial/             # 项目的 Python 模块,  you'll import your code from here
        __init__.py

        items.py          # 项目的 items 定义文件

        middlewares.py    # 项目的 middlewares 文件

        pipelines.py      # 项目的 pipelines 文件

        settings.py       # 项目的 settings 文件

        spiders/          # 一个目录,您稍后将在其中放置spider 
            __init__.py

我们的第一个Spider

Spiders 是您定义的类,Scrapy使用其从网站(或一组网站)中获取信息。它们必须是Spider类的子类并定义了初始请求,同时你可以选择性定义,如何跟随页面中的链接,以及如何解析下载的页面内容。

这是我们第一个Spider的代码。将其保存在项目中tutorial / spiders目录下,命名为quotes_spider.py:

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

如您所见,我们的Spider是scrapy.Spider的子类并定义了一些属性和方法:

  • parse()方法通常用于解析响应,提取数据为字典格式,发现将要爬取的新URL并创建新的Request对象。

如何运行我们的spider

要使我们的spider工作,请转到项目的顶级目录并运行:

scrapy crawl quotes

此命令运行我们刚刚添加的名为quotes的spider,它将发送一些前往quotes.toscrape.com的请求。您将获得类似于以下的输出:

... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...

现在,检查当前目录中的文件。您应该察觉到两个新文件被创建:quotes-1.html和quotes-2.html,文件中包含与URL对应的内容,正如我们parse方法中所指示的那样。

start_requests方法的快捷方式

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)

提取数据

学习如何使用Scrapy提取数据的最好方法是使用Scrapy shell的尝试选择器。运行:

scrapy shell 'http://quotes.toscrape.com/page/1/'

注意:通过命令行运行Scrapy shell时,请记住始终将网址括在引号中,否则包含参数(即&字符)的网址将不起作用。

在Windows上,请使用双引号代替:

scrapy shell "http://quotes.toscrape.com/page/1/"

您将看到类似以下内容:

[ ... Scrapy log here ... ]
2016-09-19 12:09:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x7fa91d888c90>
[s]   item       {}
[s]   request    <GET http://quotes.toscrape.com/page/1/>
[s]   response   <200 http://quotes.toscrape.com/page/1/>
[s]   settings   <scrapy.settings.Settings object at 0x7fa91d888c10>
[s]   spider     <DefaultSpider 'default' at 0x7fa91c8af990>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser

使用shell,您可以尝试通过CSS选择响应中的元素:

>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>Quotes to Scrape</title>'>]

运行response.css('title')将返回一个类似列表的SelectorList对象,它是Selector对象的集合,Selector对象包裹XML / HTML元素并允许您运行进一步的查询以细化选择内容或提取数据。

要从上面的title中提取文本,您可以执行以下操作:

>>> response.css('title::text').getall()
['Quotes to Scrape']

这里有两点需要注意:一是我们在CSS查询中添加了 ::text ,这意味着我们只想选择<title>元素的text元素。如果不指定::text ,则会获得完整的title元素,包括其标签:

>>> response.css('title').getall()
['<title>Quotes to Scrape</title>']

另一件事是,调用 .getall() 的结果是一个列表:选择器有可能返回多个结果,因此我们将它们全部提取出来。当您只需要第一个结果时,在这种情况下,您可以执行以下操作:

>>> response.css('title::text').get()
'Quotes to Scrape'

或者,您可以执行:

>>> response.css('title::text')[0].get()
'Quotes to Scrape'

但是,直接在SelectorList实例上使用.get()可以避免IndexError,并且在找不到与所选内容匹配的任何元素时返回None。

在这里我们可以上一课:对于大多数抓取代码,您希望它能够抵抗由于页面上找不到内容而导致的错误,因此即使某些部分未能被抓取,您也至少可以获取一些数据。

>>> response.css('title::text').re(r'Quotes.*')
['Quotes to Scrape']
>>> response.css('title::text').re(r'Q\w+')
['Quotes']
>>> response.css('title::text').re(r'(\w+) to (\w+)')
['Quotes', 'Scrape']

Selector Gadget是一个不错的工具,可以快速发现CSS选择器,Selector Gadget可在许多浏览器中使用。

XPath:简要介绍

>>> response.xpath('//title')
[<Selector xpath='//title' data='<title>Quotes to Scrape</title>'>]
>>> response.xpath('//title/text()').get()
'Quotes to Scrape'

XPath表达式非常强大,并且是Scrapy Selectors的基础。实际上,CSS选择器是在后台将转换为XPath。

尽管XPath表达式可能不如CSS选择器流行,但它提供了更多功能,因为除了navigating the structure之外,它还可以查看内容。使用XPath,您可以选择类似下面的内容:选择包含文本“Next Page”的链接。这使XPath非常适合于抓取任务,即使您已经知道如何构造CSS选择器,我们也鼓励您学习XPath,这将使抓取更加容易。

提取名言和作者

现在您对选择和提取有所了解,让我们通过编写代码从网页中提取名言。

http://quotes.toscrape.com中的每个引号都由如下所示的HTML元素表示:

<div class="quote">
    <span class="text">“The world as we have created it is a process of our
    thinking. It cannot be changed without changing our thinking.”</span>
    <span>
        by <small class="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
    </span>
    <div class="tags">
        Tags:
        <a class="tag" href="/tag/change/page/1/">change</a>
        <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
        <a class="tag" href="/tag/thinking/page/1/">thinking</a>
        <a class="tag" href="/tag/world/page/1/">world</a>
    </div>
</div>

让我们打开scrapy shell,看看如何提取所需的数据:

$ scrapy shell 'http://quotes.toscrape.com'

我们获得带有quete HTML元素的selectors 列表,其中包括:

>>> response.css("div.quote")
[<Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' quote ')]" data='<div class="quote" itemscope itemtype...'>,
 <Selector xpath="descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' quote ')]" data='<div class="quote" itemscope itemtype...'>,
 ...]

上面的查询返回的每个选择器都允许我们在其子元素上运行进一步的查询。让我们将第一个选择器分配给一个变量,以便我们可以直接在特定quote上运行CSS选择器:

>>> quote = response.css("div.quote")[0]

现在,让我们使用刚刚创建的quote对象从中提取text, author和tags:

>>> text = quote.css("span.text::text").get()
>>> text
'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'
>>> author = quote.css("small.author::text").get()
>>> author
'Albert Einstein'

鉴于tags是字符串列表,我们可以使用.getall()方法来获取所有标签:

>>> tags = quote.css("div.tags a.tag::text").getall()
>>> tags
['change', 'deep-thoughts', 'thinking', 'world']

在弄清楚如何提取每一个quote之后,我们现在可以遍历所有quotes元素并将它们放到Python字典中:

>>> for quote in response.css("div.quote"):
...     text = quote.css("span.text::text").get()
...     author = quote.css("small.author::text").get()
...     tags = quote.css("div.tags a.tag::text").getall()
...     print(dict(text=text, author=author, tags=tags))
{'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'author': 'Albert Einstein', 'tags': ['change', 'deep-thoughts', 'thinking', 'world']}
{'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'author': 'J.K. Rowling', 'tags': ['abilities', 'choices']}
...

在我们的spider中提取数据

让我们回到spider。到目前为止,它还没有提取任何数据,只是将整个HTML页面保存到本地文件中。让我们将上面的提取逻辑集成到我们的Spider中。

一个Scrapy spider通常会生成许多字典,其中包含从页面提取的数据。为此,我们在回调中使用yieldPython关键字,如下所示:

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

如果运行此spider,它将输出提取的数据:

2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags': ['life', 'love'], 'author': 'André Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}
2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

存储抓取的数据

scrapy crawl quotes -O quotes.json

这将生成一个quotes.json文件,其中包含所有抓取的item, 并以JSON的方式显示。

scrapy crawl quotes -o quotes.jl

: sprider的标识符。它在一个项目中必须唯一,也就是说,您不能为不同的Spider设置相同的名称。

: 必须返回一个可迭代的请求列表(您可以返回一个请求列表或编写一个列表生成器函数),该请求列表用于告诉Spider从哪里开始爬取。随后的请求将从这些初始请求中依次生成。

: 一个将被调用以处理每个请求响应的方法。response参数是TextResponse的一个实例,该实例保存着响应页面内容并具有很多用于处理响应的方法。

在之前的小节中,我们通过实现 方法,从URL列表中生成对象。除此之外,你也可以只定义一个类属性,值为一个URL列表。该列表将被start_requests()的默认实现使用并为你的spider创建初始请求:

除了 和 方法之外,您还可以通过 方法使用正则表达式进行提取:

为了找到合适的CSS选择器,您能够使用 view(response)从shell中打开Web浏览器。您可以使用浏览器的开发者工具检查HTML并获得一个选择器(请参阅 )

除了 ,Scrapy选择器还支持使用 表达式:

我们不会在这里介绍XPath,但是您可以阅读。要了解有关XPath的更多信息,我们建议你阅读 和.

存储抓取数据的最简单方法是使用,命令如下:

-O 参数将覆盖现有文件; -o 参数可以将新内容追加至现有文件。但是,追加到JSON文件会使文件内容成为无效JSON。当使用追加操作时,请考虑使用其他序列化格式,例如 :

格式很有用,因为它像流一样,您可以轻松地向其添加新记录。而不会当您运行两次时遇到与JSON相同的问题。此外,由于每条记录都是单独的一行,因此您可以处理大文件而不必将所有内容都放入内存中,因此有类似 的工具可以在命令行中帮助您完成此操作。

在小型项目中(例如本教程中的项目),这应该足够了。但是,如果要对scraped items执行更复杂的操作,你可以编写 。创建项目时,已在 tutorial/pipelines.py中为您设置了Item Pipelines的占位符文件。如果您只想存储scraped items,则无需实现任何item pipelines。

安装指南
quotes.toscrape.com
name
start_requests()
parse()
start_requests()
scrapy.Request
start_urls
getall()
get()
re()
Using your browser’s Developer Tools for scraping
CSS
XPath
using XPath with Scrapy Selectors here
this tutorial to learn XPath through examples
this tutorial to learn “how to think in XPath”
Feed exports
JSON Lines
JSON Lines
JQ
Item Pipeline