老K的杂货铺

穷不失义,达不离道。


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 读书

Scrapyd运行流程总结

发表于 2018-07-26 | 分类于 源码研究 | | 阅读次数:
执行入口入口程序在Scrapyd源代码的setup.py中指定:Github - Scrapyd1234setup_args['entry_points'] = {'console_scripts': [ # 打包后命令执行入口 'scrapyd = scrapyd.scrip ...
阅读全文 »

服务器并发模型实现

发表于 2018-07-13 | 分类于 IO | | 阅读次数:
服务器并发需求对于像Nginx这样的网络服务器,每秒可能会接收到几或几十万的网络请求,并且还有数以十万的最近几秒没有收发任何报文的不活跃连接。服务器需要同时处理这些连接事件,并且需要维持高效率的使用CPU等资源。 并发编程的两种实现模型1)线程模型(或进程模型)一个线程处理一个连接的全部生命周期。优 ...
阅读全文 »

《绝对自控》读书笔记

发表于 2018-07-05 | 更新于 2018-07-07 | 分类于 读书 | | 阅读次数:
上周读完了美国作家瑞安·霍利迪的《绝对自控》,读完最深刻的就是书中描述“自我”对个人成长、发展的不容忽视的影响。求索路上,严控自我;要谦逊、勤勉、自省,从自我中脱离出来,懂得自我批判,知道自我激励,在个人成长的过程中如何处理“自我”,与自己很好的相处。生活不是为了和其他人较劲,意义不在于拥有的比别人 ...
阅读全文 »

Airflow安装使用

发表于 2018-06-29 | 分类于 工具 | | 阅读次数:
介绍Airflow 是 Airbnb 使用Python开发的用于工作流管理的开源项目,简单说就是管理和调度定时任务,可以替代Linux的crontab。如果你的crontab很多,不好管理,那么airflow对你来说就是救星。它自带简洁的UI,现在 Apache 下做孵化,地址是https://gi ...
阅读全文 »

Scrapy下载流程解析

发表于 2018-06-25 | 分类于 源码研究 | | 阅读次数:
对照下面的脑图,理解整个Scrapy下载流程: 首先接着上篇,Engine中注册到事件循环的_next_request_from_scheduler()方法开始。 实际上注册的是_next_request(),但_next_request()中真正执行的是_next_request_from_sc ...
阅读全文 »

Kubernetes入门

发表于 2018-06-14 | 分类于 Kubernetes | | 阅读次数:
Kubernetes是一个完备的分布式系统支撑平台,具有完备的集群管理能力,包括多层次的安全防护和准入机制、多租户应用支撑能力,透明的服务注册和服务发现机制,内建智能负载均衡器,强大的故障发现和自我修复能力,服务滚动升级和在线扩容能力,可扩展的资源和自动调度机制,以及多粒度的资源配额管理能力。所以, ...
阅读全文 »

Scrapy整体抓取流程

发表于 2018-06-06 | 分类于 源码研究 | | 阅读次数:
看代码过程中整理的一张思维导图,对理解整个流程有帮助。 从启动示例说起:123456789101112131415import scrapyfrom scrapy.crawler import CrawlerProcessclass MySpider1(scrapy.Spider): # Yo ...
阅读全文 »

《增长黑客》读后感

发表于 2018-06-03 | 分类于 产品&运营 | | 阅读次数:
增长黑客(Growth Hacker)源于硅谷,最早在2010年提出,真正引起业界关注是在2012年。一句话来描述是指这样一群人,他们以数据驱动营销、以市场指导产品,通过技术手段来达到增长目标的人群。—需要了解技术,又得了解用户心理,发挥创意,绕过限制,通过低成本解决初创公司产品早期的增长问题。 书 ...
阅读全文 »

使用Scrapyd部署爬虫

发表于 2018-05-30 | 分类于 爬虫 | | 阅读次数:
一、概念Scrapyd是可以运行Scrapy爬虫的服务,允许我们部署Scrapy项目并且可以使用Http来控制爬虫。Scrapyd能够管理多个项目,并且每个项目可以有多个版本,但只有最新的版本才是有效的。Scrapyd-client是Scrapyd的客户端,主要提供一种部署Scrapy项目到Scra ...
阅读全文 »

四种基本的I/O模型

发表于 2018-05-16 | 更新于 2018-06-14 | 分类于 IO | | 阅读次数:
常用的四种IO模型:1)blocking IO(阻塞IO模型)客户端需要等待服务端返回数据,整个过程是串行的 2)non-blocking IO(非阻塞IO)服务端立即相应客户端,数据没有准备好就返回Error,客户端需要轮询服务端获取想要的数据,直到数据准备好并返回 3)IO multiplexi ...
阅读全文 »

阿里云分布式存储系统的研究与分享

发表于 2018-04-13 | 更新于 2018-04-26 | 分类于 分布式 | | 阅读次数:
云计算介绍云计算是一种弹性的计算模式,以虚拟化为基础,以网络为中心,为用户提供安全、快速、便捷的数据存储和网络计算服务, 包括所需要的硬件、平台、软件及服务等资源,而提供资源的网络就被称为“云”。达到让用户像使用水、电、煤气等资源一样便捷、高效。服务类型: IaaS(基础设施即服务) PaaS(平 ...
阅读全文 »

Linux TC限流

发表于 2018-03-27 | 更新于 2018-03-28 | 分类于 Linux | | 阅读次数:
流量控制的一个基本概念是队列(Qdisc),每个网卡都与一个队列(Qdisc)相联系, 每当内核需要将报文分组从网卡发送出去, 都会首先将该报文分组添加到该网卡所配置的队列中, 由该队列决定报文分组的发送顺序。因此可以说,所有的流量控制都发生在队列中. 在Linux中,流量控制都是通过TC这个工具来 ...
阅读全文 »
123
老K

老K

潜心积累、野蛮成长

36 日志
21 分类
60 标签
GitHub E-Mail 微博
牛人站点
  • 酷壳 - CoolShell
  • Artem Golubin
  • 午夜咖啡
  • Airbnb
© 2014 — 2019 老K
由 Hexo 强力驱动 v3.4.4
|
主题 — NexT.Mist v6.3.0