当前位置:七道奇文章资讯编程技术Java编程
日期:2011-03-22 16:15:00  来源:本站整理

<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]

赞助商链接



  本文“<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:

在 上一部份 中,您理解到若何编写一个 spider 程序来举行网页的爬取, 作为 spider 的爬取后果,我们得到了一个按照一定格局存储的原始网页库,原 始网页库也是我们第二部份网页预处理的数据底子.网页预处理的主要目标是将 原始网页通过一步步的数据处理变成可便利搜索的数据情势.下面就让我们渐渐 介绍网页预处理的计划和实现.

预处理模块的整体构造

预处理模块的整体构造以下:

图 1. 预处理模块的整体构造

通过 spider 的汇集,保存下来的网页信息具有较好的信息存储格局,但是 还是有一个缺陷,就是不能按照网页 URL 直接定位到所指向的网页.所以,在 第一个流程中,需求先成立网页的索引,如此通过索引,我们可以很便利的从原 始网页库中得到某个 URL 对应的页面信息.之后,我们处理网页数据,关于一 个网页,首先需求提取其网页正文信息,其次对正文信息举行分词,之后再按照 分词的情形成立索引和倒排索引,这样,网页的预处理也全部完成.大概读者对 于此中的某些专业术语会有一些不懂得之处,在后续详述各个流程的时刻会给出 呼应的图大概例子来帮忙大家理解.

成立索引网页库

原始网页库是按照格局存储的,这关于网页的索引成立供应了便利,下图给 出了一条网页信息记录:

清单 1. 原始网页库中的一条网页记录

 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
  xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx   // 之前的记录

  version:1.0              // 记录头部
  url:http://ast.nlsde.buaa.edu.cn/
  date:Mon Apr 05 14:22:53 CST 2010
  IP:218.241.236.72
  length:3981

  <!DOCTYPE ……           // 记录数据部份
  <html> …… </html>

  xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx   // 之后的记录
  xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx


  以上是“<b>dySE:一个Java搜索引擎的实现,第2部份 网页预处理</b>[Java编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:

  • <b>hosts是什么 hosts文件在什么位置 若何改正hosts</b>
  • <b>在 Windows 8 中手动安装语言包</b>
  • <b>五个常见 PHP数据库问题</b>
  • Windows中Alt键的12个高效快速的利用本领介绍
  • <b>MySQL ORDER BY 的实现解析</b>
  • <b>详解MySQL存储历程参数有三种范例(in、out、inout)</b>
  • <b>Win8系统恢复出来经典的开始菜单的办法</b>
  • <b>Win8系统花屏怎么办 Win8系统花屏的办理办法</b>
  • <b>Windows 7系统下无线网卡安装</b>
  • <b>为什么 Linux不需求碎片整理</b>
  • <b>Windows 8中删除账户的几种办法(图)</b>
  • <b>教你如安在win7下配置路由器</b>
  • 本文地址: 与您的QQ/BBS好友分享!
    • 好的评价 如果您觉得此文章好,就请您
        0%(0)
    • 差的评价 如果您觉得此文章差,就请您
        0%(0)

    文章评论评论内容只代表网友观点,与本站立场无关!

       评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
    Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .