<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]
本文“<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
在 上一部份 中,您理解到若何编写一个 spider 程序来举行网页的爬取, 作为 spider 的爬取后果,我们得到了一个按照一定格局存储的原始网页库,原 始网页库也是我们第二部份网页预处理的数据底子.网页预处理的主要目标是将 原始网页通过一步步的数据处理变成可便利搜索的数据情势.下面就让我们渐渐 介绍网页预处理的计划和实现.
预处理模块的整体构造
预处理模块的整体构造以下:
图 1. 预处理模块的整体构造
通过 spider 的汇集,保存下来的网页信息具有较好的信息存储格局,但是 还是有一个缺陷,就是不能按照网页 URL 直接定位到所指向的网页.所以,在 第一个流程中,需求先成立网页的索引,如此通过索引,我们可以很便利的从原 始网页库中得到某个 URL 对应的页面信息.之后,我们处理网页数据,关于一 个网页,首先需求提取其网页正文信息,其次对正文信息举行分词,之后再按照 分词的情形成立索引和倒排索引,这样,网页的预处理也全部完成.大概读者对 于此中的某些专业术语会有一些不懂得之处,在后续详述各个流程的时刻会给出 呼应的图大概例子来帮忙大家理解.
成立索引网页库
原始网页库是按照格局存储的,这关于网页的索引成立供应了便利,下图给 出了一条网页信息记录:
清单 1. 原始网页库中的一条网页记录
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx // 之前的记录
version:1.0 // 记录头部
url:http://ast.nlsde.buaa.edu.cn/
date:Mon Apr 05 14:22:53 CST 2010
IP:218.241.236.72
length:3981
<!DOCTYPE …… // 记录数据部份
<html> …… </html>
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx // 之后的记录
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
以上是“<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:
本文地址: | 与您的QQ/BBS好友分享! |