• 欢迎访问极客公园网站,WordPress信息,WordPress教程,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站,欢迎加入极客公园 QQ群
  • Git主题现已支持滚动公告栏功能,兼容其他浏览器,看到的就是咯,在后台最新消息那里用li标签添加即可。
  • 最新版Git主题已支持说说碎语功能,可像添加文章一样直接添加说说,新建说说页面即可,最后重新保存固定连接,演示地址
  • 百度口碑求点赞啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊http://koubei.baidu.com/s/gitcafe.net
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏极客公园吧
Python爬虫:Xpath语法笔记

Python爬虫:Xpath语法笔记

一、选取节点 常用的路劲表达式: 表达式 描述 实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点,不考虑他们的位置 xpath(‘//div’) 选取所有的div节点……

发送email

发送email

发送email¶ 虽然Python通过 smtplib 库使得发送email变得很简单,Scrapy仍然提供了自己的实现。 该功能十分易用,同时由于采用了 Twisted非阻塞式(non-blocking)IO ,其避免了对爬虫的非阻塞式IO的影响。 另外,其也提供了简单的API来发送附件。 通过一些 settings 设置,您可以很简单的进行配置。……

Telnet终端(Telnet Console)

Telnet终端(Telnet Console)

Telnet终端(Telnet Console)¶ Scrapy提供了内置的telnet终端,以供检查,控制Scrapy运行的进程。 telnet仅仅是一个运行在Scrapy进程中的普通python终端。因此您可以在其中做任何事。 telnet终端是一个 自带的Scrapy扩展 。 该扩展默认为启用,不过您也可以关闭。 关于扩展的更多内容请参考 Te……

Web Service

Web Service

Web Service¶ webserver 被移动到另外一个项目中。 托管在: https://github.com/scrapy/scrapy-jsonrpc ……

常见问题(FAQ)

常见问题(FAQ)

常见问题(FAQ)¶ Scrapy相BeautifulSoup或lxml比较,如何呢?¶ BeautifulSoup 及 lxml 是HTML和XML的分析库。Scrapy则是 编写爬虫,爬取网页并获取数据的应用框架(application framework)。 Scrapy提供了内置的机制来提取数据(叫做 选择器(selectors))。 但如……

调试(Debugging)Spiders

调试(Debugging)Spiders

调试(Debugging)Spiders¶ 本篇介绍了调试spider的常用技术。 考虑下面的spider: import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = 'myspider' start_urls =……

Spiders Contracts

Spiders Contracts

Spiders Contracts¶ 0.15 新版功能. 注解 这是一个新引入(Scrapy 0.15)的特性,在后续的功能/API更新中可能有所改变,查看 release notes 来了解更新。 测试spider是一件挺烦人的事情,尤其是只能编写单元测试(unit test)没有其他办法时,就更恼人了。 Scrapy通过合同(contr……

实践经验(Common Practices)

实践经验(Common Practices)

实践经验(Common Practices)¶ 本章节记录了使用Scrapy的一些实践经验(common practices)。 这包含了很多使用不会包含在其他特定章节的的内容。 在脚本中运行Scrapy¶ 除了常用的 scrapy crawl 来启动Scrapy,您也可以使用 API 在脚本中启动Scrapy。 需要注意的是,Scrapy是在T……

通用爬虫(Broad Crawls)

通用爬虫(Broad Crawls)

通用爬虫(Broad Crawls)¶ Scrapy默认对特定爬取进行优化。这些站点一般被一个单独的Scrapy spider进行处理, 不过这并不是必须或要求的(例如,也有通用的爬虫能处理任何给定的站点)。 除了这种爬取完某个站点或没有更多请求就停止的”专注的爬虫”,还有一种通用的爬取类型,其能爬取大量(甚至是无限)的网站, 仅仅受限于时间或其他的……

借助Firefox来爬取

借助Firefox来爬取

借助Firefox来爬取¶ 这里介绍一些使用Firefox进行爬取的点子及建议,以及一些帮助爬取的Firefox实用插件。 在浏览器中检查DOM的注意事项¶ Firefox插件操作的是活动的浏览器DOM(live browser DOM),这意味着当您检查网页源码的时候, 其已经不是原始的HTML,而是经过浏览器清理并执行一些Javascript……