Apache Nutch 1.3 学习笔记目录

本文档由 开卷有益360 分享于2011-10-20 17:51

Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。
文档格式:
.docx
文档大小:
15.3K
文档页数:
1
顶 /踩数:
50 0
收藏人数:
21
评论次数:
0
文档热度:
文档分类:
IT计算机  —  搜索引擎优化
添加到豆单
文档标签:
Apache Nutch 1.3 学习笔记 搜索引擎 爬虫 Solr 采集
系统标签:
nutch apache 笔记 学习 插件机 目录
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82