VC_搜索引擎网络爬虫设计与实现

本文档由 lxm15930 分享于2011-03-11 22:32

本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后具体阐述了如何设计并实现搜索引擎的搜索器——网络爬虫。多线程网络爬虫程序是从指定的Web页面中按照宽度优先算法进行解析、搜索,并把搜索到的每条URL进行抓取、保存并且以URL为新的入口在互联网上进行不断的爬行的自动执行后台程序。
文档格式:
.doc
文档大小:
1.33M
文档页数:
73
顶 /踩数:
3 0
收藏人数:
29
评论次数:
0
文档热度:
文档分类:
IT计算机  —  开发文档
添加到豆单
系统标签:
爬虫 搜索引擎 网络 多线程 spider 设计
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用





82