博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫8:Scrapy-取内容
阅读量:6435 次
发布时间:2019-06-23

本文共 1091 字,大约阅读时间需要 3 分钟。

scrapy的实例都分了好几次来写了,因为平时要工作,而且总是遇到这样那样的问题,所以进度一直很慢

写程序有的时候也是玄学,好好的程序总是莫名其妙的就不能运行,然后又莫名其妙的好了,很是奇葩,就像今天的问题

搞了半天搞不好,还像程序员求救,最后什么都没干又自己好了

不过程序员哥哥还是说得对,代码之前能运行那说明代码逻辑没问题,又确定了格式没问题,那剩下的多半是环境的问题了,写代码一定要多注意细节。

因为之前在学selenium的时候,已经学过xpath的提取了,所以这个倒没费多大的功夫,直接上代码了

from scrapy.spiders import Spiderfrom scrapy.selector import Selectorfrom tutorial.items import DmozItemclass DmozSpider(Spider):    name = "dmoz"    allowed_domains = ["dmoz.org"]    start_urls=[        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"    ]    def parse(self,response):        sel = Selector(response)        sites = sel.xpath('//div[@class="site-title"]/text()')        items=[]        for site in sites:            item =DmozItem()            item['title'] = site.extract()            items.append(item)        return items

再接下来是存储内容了

信息保存主要有四种:JSON, JSON lines, CSV, XML

我们用json导出

-o后面是文件名,-t后面是导出类型

scrapy crawl dmoz -o axiba.json -t json

目前为止这个例子就学完了,下一步去研究项目的爬虫了

嘿嘿

转载于:https://www.cnblogs.com/ronyjay/p/6525865.html

你可能感兴趣的文章
Linux自动清理N天前目录文件
查看>>
方便 快捷 安全的EVO邮件服务器
查看>>
bash的快捷键
查看>>
关于如何编写linux设备驱动
查看>>
DNS服务
查看>>
九州云开放“边缘云”能力 助力中国联通延展业务边界
查看>>
Linux进程状态(ps stat)之R、S、D、T、Z、X
查看>>
ME3750和普通3750的区别
查看>>
H3C交换系列之Super VLAN
查看>>
项目采购管理
查看>>
linux系统使用tomcat服务器部署web项目
查看>>
虚拟文件系统相关结构描述【续】
查看>>
我的友情链接
查看>>
思科通配符(Cisco Wildcard Mask)
查看>>
PHP cURL快速入门
查看>>
在errpt中报E87EF1BE的解决方法(转载)
查看>>
aix chfs及mklvcopy报错的解决方法
查看>>
取消新增的constraints
查看>>
OPTIMIZE TABLE
查看>>
flask框架+pygal+sqlit3搭建图形化业务数据分析平台
查看>>