Scrapyd运行流程总结

发表于 2018-07-26 | 分类于源码研究 | | 阅读次数：

执行入口入口程序在Scrapyd源代码的setup.py中指定：Github - Scrapyd1234setup_args['entry_points'] = {'console_scripts': [ # 打包后命令执行入口 'scrapyd = scrapyd.scrip ...

阅读全文 »

服务器并发模型实现

发表于 2018-07-13 | 分类于 IO | | 阅读次数：

服务器并发需求对于像Nginx这样的网络服务器，每秒可能会接收到几或几十万的网络请求，并且还有数以十万的最近几秒没有收发任何报文的不活跃连接。服务器需要同时处理这些连接事件，并且需要维持高效率的使用CPU等资源。并发编程的两种实现模型1）线程模型（或进程模型）一个线程处理一个连接的全部生命周期。优 ...

阅读全文 »

《绝对自控》读书笔记

发表于 2018-07-05 | 更新于 2018-07-07 | 分类于读书 | | 阅读次数：

上周读完了美国作家瑞安·霍利迪的《绝对自控》，读完最深刻的就是书中描述“自我”对个人成长、发展的不容忽视的影响。求索路上，严控自我；要谦逊、勤勉、自省，从自我中脱离出来，懂得自我批判，知道自我激励，在个人成长的过程中如何处理“自我”，与自己很好的相处。生活不是为了和其他人较劲，意义不在于拥有的比别人 ...

阅读全文 »

Airflow安装使用

发表于 2018-06-29 | 分类于工具 | | 阅读次数：

介绍Airflow 是 Airbnb 使用Python开发的用于工作流管理的开源项目，简单说就是管理和调度定时任务，可以替代Linux的crontab。如果你的crontab很多，不好管理，那么airflow对你来说就是救星。它自带简洁的UI，现在 Apache 下做孵化，地址是https://gi ...

阅读全文 »

Scrapy下载流程解析

发表于 2018-06-25 | 分类于源码研究 | | 阅读次数：

对照下面的脑图，理解整个Scrapy下载流程：首先接着上篇，Engine中注册到事件循环的_next_request_from_scheduler()方法开始。实际上注册的是_next_request()，但_next_request()中真正执行的是_next_request_from_sc ...

阅读全文 »

Kubernetes入门

发表于 2018-06-14 | 分类于 Kubernetes | | 阅读次数：

Kubernetes是一个完备的分布式系统支撑平台，具有完备的集群管理能力，包括多层次的安全防护和准入机制、多租户应用支撑能力，透明的服务注册和服务发现机制，内建智能负载均衡器，强大的故障发现和自我修复能力，服务滚动升级和在线扩容能力，可扩展的资源和自动调度机制，以及多粒度的资源配额管理能力。所以， ...

阅读全文 »

Scrapy整体抓取流程

发表于 2018-06-06 | 分类于源码研究 | | 阅读次数：

看代码过程中整理的一张思维导图，对理解整个流程有帮助。从启动示例说起：123456789101112131415import scrapyfrom scrapy.crawler import CrawlerProcessclass MySpider1(scrapy.Spider): # Yo ...

阅读全文 »

《增长黑客》读后感

发表于 2018-06-03 | 分类于产品&运营 | | 阅读次数：

增长黑客（Growth Hacker）源于硅谷，最早在2010年提出，真正引起业界关注是在2012年。一句话来描述是指这样一群人，他们以数据驱动营销、以市场指导产品，通过技术手段来达到增长目标的人群。—需要了解技术，又得了解用户心理，发挥创意，绕过限制，通过低成本解决初创公司产品早期的增长问题。书 ...

阅读全文 »

使用Scrapyd部署爬虫

发表于 2018-05-30 | 分类于爬虫 | | 阅读次数：

一、概念Scrapyd是可以运行Scrapy爬虫的服务，允许我们部署Scrapy项目并且可以使用Http来控制爬虫。Scrapyd能够管理多个项目，并且每个项目可以有多个版本，但只有最新的版本才是有效的。Scrapyd-client是Scrapyd的客户端，主要提供一种部署Scrapy项目到Scra ...

阅读全文 »

四种基本的I/O模型

发表于 2018-05-16 | 更新于 2018-06-14 | 分类于 IO | | 阅读次数：

常用的四种IO模型：1）blocking IO（阻塞IO模型）客户端需要等待服务端返回数据，整个过程是串行的 2）non-blocking IO(非阻塞IO)服务端立即相应客户端，数据没有准备好就返回Error，客户端需要轮询服务端获取想要的数据，直到数据准备好并返回 3）IO multiplexi ...

阅读全文 »

阿里云分布式存储系统的研究与分享

发表于 2018-04-13 | 更新于 2018-04-26 | 分类于分布式 | | 阅读次数：

云计算介绍云计算是一种弹性的计算模式，以虚拟化为基础，以网络为中心，为用户提供安全、快速、便捷的数据存储和网络计算服务，包括所需要的硬件、平台、软件及服务等资源，而提供资源的网络就被称为“云”。达到让用户像使用水、电、煤气等资源一样便捷、高效。服务类型： IaaS（基础设施即服务） PaaS（平 ...

阅读全文 »

Linux TC限流

发表于 2018-03-27 | 更新于 2018-03-28 | 分类于 Linux | | 阅读次数：

流量控制的一个基本概念是队列(Qdisc)，每个网卡都与一个队列(Qdisc)相联系，每当内核需要将报文分组从网卡发送出去，都会首先将该报文分组添加到该网卡所配置的队列中，由该队列决定报文分组的发送顺序。因此可以说，所有的流量控制都发生在队列中. 在Linux中，流量控制都是通过TC这个工具来 ...

阅读全文 »