【一起学习Python网络爬虫18】让Scrapy的Spider更通用

本文档由 集搜客GooSeeker 分享于2016-08-29 18:00

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?
文档格式:
.pdf
文档大小:
281.71K
文档页数:
4
顶 /踩数:
0 0
收藏人数:
1
评论次数:
0
文档热度:
文档分类:
IT计算机  —  Python
添加到豆单
文档标签:
网络爬虫 数据采集 数据抓取 python爬虫 编程语言 网页采集
系统标签:
scrapy 爬虫 spider python gooseeker 通用
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82