读书

August 31, 2021

SEO的艺术

SEO的艺术(原书第2版) Eric Enge Stephan Spencer Jessie Stri 4个笔记 第1章 搜索:反映认知、连接商务 搜索已经与当今的社会融为一体。截至2011年8月,全球每个月执行的搜索超过了1580亿次(根据comScore,http://www.comscore.com的数字),每天大约执行52亿次。这意味着,每秒平均要执行大约61000次搜索。此外,用户对搜索查询返回的期望时间是1秒钟之内。 1.7 注意力跟踪:用户如何浏览搜索结果页面 根据Enquiro在2007年9月公布的更新研究结果,整合搜索页面的注意力跟踪模式如图1-9所示。 [插图] 图1-9...

Read More
August 31, 2021

精通Python爬虫框架Scrapy

Twisted 3.4.1 使用爬虫实现双向爬取 yield yield与return在某种意义上来说有些相似,都是将返回值提供给调用者。不过,和return不同的是,yield不会退出函数,而是继续执行for循环。从功能上来说,前面的例子与下面的代码大体相当: 5.2.1 在响应间传参 好 parse_item()内部,可以使用该值替代之前使用过的XPath表达式。 l.add_value(’title’,response.meta[’title’], MapCompose(unicode.strip,unicode.title)) 你会发现我们不再调用add_xpath(),而是转为调用add_value(),这是因为我们在该字段中将不会再使用到任何XPath表达式。现在,可以使用scrapy crawl运行这个新的爬虫,并且可以在PropertyItems中看到来自api.json的标题 第6章 部署到Scrapinghub 云托管 Scrapinghub是Scrapy托管的Amazon服务器,它是由Scrapy开发者创建的Scrapy云基础设施提供商。它是一个付费服务,不过也提供了免费方 6.2 部署爬虫与计划运行 放屏蔽...

Read More