基于PageRank与Bagging的主题爬虫研究

本文档由 SHU 分享于2011-03-04 00:02

为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得..
文档格式:
.pdf
文档大小:
304.51K
文档页数:
4
顶 /踩数:
1 0
收藏人数:
1
评论次数:
0
文档热度:
文档分类:
论文  —  期刊/会议论文
添加到豆单
文档标签:
主题爬虫 搜索策略 主题相关性 PageRank Bagging
系统标签:
爬虫 bagging pagerank 主题 查准率 网页
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82