menu

工具合集

date_range 17/01/2021 00:00

万能的小工具们

slpash启用tor代理

date_range 10/12/2020 00:00

#

解决debian10无法安装zerotier-one

date_range 07/12/2020 00:00

出现debian10无法安装zerotier-one的情况下,可以直接下载对应的包安装

hugo自动化创建内容

date_range 07/12/2020 00:00

本地使用mongodb数据存储内容。

hugo添加相关内容

date_range 06/12/2020 00:00

修改主题中的如下文件,如果没有可以创建。

hugo中设置路径

date_range 02/12/2020 00:00

hugo中设置路径 建议设置slug参数,这样子可以方便控制,另外hugo不强制在文件里加入日期。

Linux screen命令使用

date_range 01/12/2020 00:00

远程作业利器,尤其对于网络不稳定状态的时候,更是一个很好的保障利器。

红茶经

date_range 25/11/2020 00:00

豆浆泡+红茶一定要试试

精通Python爬虫框架Scrapy

date_range 25/11/2020 00:00

Twisted 3.4.1 使用爬虫实现双向爬取 yield yield与return在某种意义上来说有些相似,都是将返回值提供给调用者。不过,和return不同的是,yield不会退出函数,而是继续执行for循环。从功能上来说,前面的例子与下面的代码大体相当: 5.2.1 在响应间传参 好 parse_item()内部,可以使用该值替代之前使用过的XPath表达式。 l.add_value(’title’,response.meta[’title’], MapCompose(unicode.strip,unicode.title)) 你会发现我们不再调用add_xpath(),而是转为调用add_value(),这是因为我们在该字段中将不会再使用到任何XPath表达式。现在,可以使用scrapy crawl运行这个新的爬虫,并且可以在PropertyItems中看到来自api.json的标题 第6章 部署到Scrapinghub 云托管 Scrapinghub是Scrapy托管的Amazon服务器,它是由Scrapy开发者创建的Scrapy云基础设施提供商。它是一个付费服务,不过也提供了免费方 6.2 部署爬虫与计划运行 放屏蔽 Scrapinghub使用了算法预估每秒的请求数,能够让你在执行时不会被屏蔽。 7.1 使用Scrapy设置 临时参数 对于一些临时修改,可以使用命令行参数-s,在命令行中传输设置。我们在前面已经使用过几次,比如-s CLOSESPIDR_PAGECOUNT=3,即用于启用爬虫关闭扩展,以便爬虫尽早关闭。在该级别中,我们可能会去设置API secrets、密码等。不要将这些信息写入settings.py文件中,因为你不会希望它们意外出现在某些公开代码库当中。 7.2.4 HTTP缓存和离线运行 HTTP缓存和离线运行 HTTP缓存和离线运行 Scrapy的HttpCacheMiddleware组件(默认未激活)为HTTP请求和响应提供了一个低级的缓存。当启用该组件时,缓存会存储每个请求及其对应的响应。通 7.2.7 媒体下载 Scrapy可以使用图像管道下载媒体内容,此外还可以将图像转换为不同的格式、生成缩略图以及基于大小过滤图 Scrapy可以使用图像管道下载媒体内容,此外还可以将图像转换为不同的格式、生成缩略图以及基于大小过滤图 8.1 Scrapy是一个Twisted应用 们使用该非阻塞架构时,只需一个线程,就能达到类似使用数千个线程才能达到的性能。坦率地说,操作系统开发人员花费了数十年的时间优化线程操作,以使它们速度更快。性能的争论没有以前那么强烈了。有一件大家都认同的事情是,为复杂应用编写正确的线程安全代码非常困难。 我们使用该非阻塞架构时,只需一个线程,就能达到类似使用数千个线程才能达到的性能。 坦率地说,操作系统开发人员花费了数十年的时间优化线程操作,以使它们速度更快。性能的争论没有以前那么强烈了。有一件大家都认同的事情是,为复杂应用编写正确的线程安全代码非常困难。 们使用该非阻塞架构时,只需一个线程,就能达到类似使用数千个线程才能达到的性能。 坦率地说,操作系统开发人员花费了数十年的时间优化线程操作,以使它们速度更快。性能的争论没有以前那么强烈了。有一件大家都认同的事情是,为复杂应用编写正确的线程安全代码非常困难。 8.1.1 延迟和延迟链 延迟机制是Twisted提供的最基础的机制,能够帮助我们编写异步代码。Twisted API使用延迟机制,允许我们定义发生某些事件时所采取的动作序列。 延迟机制是Twisted提供的最基础的机制,能够帮助我们编写异步代码。Twisted API使用延迟机制,允许我们定义发生某些事件时所采取的动作序列。 9.1.1 使用treq treq是一个Python包,相当于基于Twisted应用编写的Python reqsts包。它可以让我们轻松执行GET、POST以及其他HTTP请求。 treq是一个Python包,相当于基于Twisted应用编写的Python requests包。它可以让我们轻松执行GET、POST以及其他HTTP请求。 9.1.2 用于写入Elasticsearch的管道 倾向于选择treq而不是Scrapy的Reqst/crawler.engine.download()的原因是,虽然它们都很简单,但是在性能上treq更有优 倾向于选择treq而不是Scrapy的Request/crawler.engine.download()的原因是,虽然它们都很简单,但是在性能上treq更有优

欲罢不能:刷屏时代如何摆脱行为上瘾

date_range 25/11/2020 00:00

欲罢不能:刷屏时代如何摆脱行为上瘾

编辑