-
9
-
Apache Nutch 1.3 学习笔记五(Fetcher流程).docx
- Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。
-
-
72
-
基于Nutch技术的主题搜索引擎实现.pdf
- 基于Nutch技术的主题搜索引擎实现 focused-searchengine based Nutchtechnology 作者姓名:李东海 业:计算机应用技术导师姓名 学位类别:工学硕士论文起止年月
-
-
4
-
Nutch中PageRank的并行实现.pdf
- 针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性
-
-
5
-
Nutch搜索引擎中文化技术研究.doc
- 摘要:Nutch是一个优秀的基于Java的开放源码搜索引擎,为了使它能够支持中文 ... Lucene是开放源码的基于Java的全文检索引擎,其贡献者Doug Cutting是一位资深全文 ...
-
-
50
-
Nutch搜索引擎中网页排序技术的研究.pdf
- Nutch搜索引擎中网页排序技术的研究 ...
-
-
5
-
nutch安装在windows下(1).pdf
- nutch安装在windows下(1)nutch安装在windows下(1)nutch安装在windows下(1)
-
-
40
-
基于Nutch的搜索引擎实现及中文扩展论文.doc
- 基于Nutch的搜索引擎实现及中文扩展论文,有任何疑问请给我发站内消息,我会及时回复,请注意查看!
-
-
52
-
基于Nutch的分布式搜索引擎的设计与研究.pdf
- 基于Nutch的分布式搜索引擎的设计与研究
-
-
5
-
基于补偿的Nutch搜索引擎的设计与实现.pdf
- 基于补偿的Nutch搜索引擎的设计与实现基于补偿的Nutch搜索引擎的设计与实现基于补偿的Nutch搜索引擎的设计与实现
-
-
11
-
基于Nutch的分布式主题爬虫的研究与实现.pdf
- 中国科技论文在线基于Nutch的分布式主题爬虫的研究与实现 王光1,2,辛阳1,2** 作者简介:王光(1990-),男,硕士研究生,研究领域:信息安全与计算机网络安全 通信联系人:辛阳(1977-)
-
向豆丁求助:有没有nutch fetcher?