当前位置:七道奇文章资讯编程技术Java编程
日期:2011-03-22 16:13:00  来源:本站整理

Webharvest网络爬虫操纵总结[Java编程]

赞助商链接



  本文“Webharvest网络爬虫操纵总结[Java编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:

Web-Harvest是一个Java开源Web数据抽取工具.它可以汇集指定的Web页面并从这些页面中提取有效的数据.其实现原理是,按照预先定义的配置文件用httpclient获得页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后应用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容挑选操作,选取切确的数据.前两年对比火的垂直搜索(比方:酷讯等)也是采取近似的原理实现的.Web-Harvest利用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码.当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置.

目前以爬取天际论坛的全部版面信息为例,介绍Web-Harvest的用法,分外是其配置文件.

天际的版块地图页面时:http://www.tianya.cn/bbs/index.shtml

[天际的部份版面列表]

我们的目标就是要抓取全部的版块信息,包含版块之间的父子关系.

先查看版块地图的页面源代码,追求规律:

<div class="backrgoundcolor">
<div class="bankuai_list">
        <h3>社会民生</h3>
        <ul>
               <li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天际杂谈">天际杂谈</a></li>
               <li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
               <li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天际时空">天际时空</a></li>
               <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
               …… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
        <h3>文学读书</h3>
               <ul>
                      <li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬鬼话">莲蓬鬼话</a></li>
                      <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
                      <li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
                      …….//省略
               </ul>
</div>
<div class="clear"></div>
</div>
…….//省略


  以上是“Webharvest网络爬虫操纵总结[Java编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:

  • 怎样更改IXWebHosting中MSSQL Quota的办法
  • 怎样改正IXWebHosting中MySQL Quota的办法
  • IXWebHosting中编辑MySQL的教程
  • IXWebHosting主机增添MYSQL数据库教程办法
  • Webharvest网络爬虫操纵总结
  • 本文地址: 与您的QQ/BBS好友分享!
    • 好的评价 如果您觉得此文章好,就请您
        0%(0)
    • 差的评价 如果您觉得此文章差,就请您
        0%(0)

    文章评论评论内容只代表网友观点,与本站立场无关!

       评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
    Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .