Nutch中PageRank的并行实现

本文档由 杨玉环 分享于2011-04-05 10:18

针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性
文档格式:
.pdf
文档大小:
331.11K
文档页数:
4
顶 /踩数:
3 0
收藏人数:
0
评论次数:
0
文档热度:
文档分类:
待分类
添加到豆单
文档标签:
Nutch 搜索引擎 PageRank 算法 MapReduee 模型 机群 并行计算
系统标签:
pagerank nutch 并行 mapreduce 控制站 实现
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到