七道奇
当前位置: 七道奇下载中心联网软件
七道奇

Apache Nutch(Java搜索引擎工具) V2.3 官方版最新无限制破解版测试可用[联网软件]

运行环境:
软件语言:简体中文
软件类型:联网软件
授权方式:免费
推荐星级:
官方主页:www.233122.com
图片预览:     【一键转帖到论坛】
插件情况:
解压密码:www.xiamiku.com
软件大小:5.00 MB
更新时间:2018-11-25 02:06:00
下载统计:载入数据 ...
  • 好的评价 如果您觉得此软件好,就请您
      100%(990)
  • 差的评价 如果您觉得此软件差,就请您
      0%(0)

赞助商链接

Apache Nutch(Java搜索引擎工具) V2.3 官方版最新无限制破解版测试可用 [联网软件] 简介




  本软件是由七道奇为您精心收集,来源于网络转载,软件收录的是官方版,软件版权归软件作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
  

  Apache Nutch是一个开放源代码的Java搜索引擎框架,它提供了运行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬虫,使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。

Apache Nutch

软件特色】

  1、Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎

  2、每个月取几十亿网页

  3、为这些网页维护一个索引

  4、对索引文件进行每秒上千次的搜索

  5、提供高质量的搜索结果

【功能特点】

  1、支持将起始URL集合注入到Nutch系统之中

  2、支持生成片段文件,其中包含了将要抓取的URL地址

  3、根据URL地址在互联网上抓取相应的内容

  4、解析所抓取到的网页,并分析其中的文本和数据

  5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取

  6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中

Apache Nutch

【使用教程】

  1、首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)

  2、一直点击next到结束,成功将项目导入project中去

  3、源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。

  4、接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中

  5、接下来我们就可以开始对指定的网站的信息进行完整的爬取了

【更新日志】

  V1.9更新:

  1、增加了可爬取的数据类型

  2、增加对Web爬虫的管理功能

  3、解决了一些格式上的已知问题

  4、修复了一些bug,优化了软件界面

  5、优化了软件性能

【下载地址】

Apache Nutch(Java搜索引擎工具) V2.3 官方版


   以上是“Apache Nutch(Java搜索引擎工具) V2.3 官方版最新无限制破解版测试可用[联网软件] ”的内容,如果你对以上该软件感兴趣,你可以看看 七道奇为您推荐以下软件:
  • Apache Doris(MPP分析型数据库) V1.0 免费非破解版下载
  • Apache Weex(高性能移动应用框架) V0.26.0 绿色免付费非破解版下载
  • Apache Thrift(服务开发框架) V0.14.1 绿色免费版下载
  • 下载地址

      下载地址
    Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .