日期：2011-03-22 16:13:00 来源：本站整理

Webharvest网络爬虫操纵总结[Java编程]

赞助商链接

分享到： QQ空间新浪微博腾讯微博人人网

　　本文“Webharvest网络爬虫操纵总结[Java编程]”是由七道奇为您精心收集，来源于网络转载，文章版权归文章作者所有，本站不对其观点以及内容做任何评价，请读者自行判断，以下是其具体内容：

Web-Harvest是一个Java开源Web数据抽取工具.它可以汇集指定的Web页面并从这些页面中提取有效的数据.其实现原理是,按照预先定义的配置文件用httpclient获得页面的全部内容（关于httpclient的内容,本博有些文章已介绍）,然后应用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容挑选操作,选取切确的数据.前两年对比火的垂直搜索（比方:酷讯等）也是采取近似的原理实现的.Web-Harvest利用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码.当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置.

目前以爬取天际论坛的全部版面信息为例,介绍Web-Harvest的用法,分外是其配置文件.

天际的版块地图页面时:http://www.tianya.cn/bbs/index.shtml

[天际的部份版面列表]

我们的目标就是要抓取全部的版块信息,包含版块之间的父子关系.

先查看版块地图的页面源代码,追求规律:

<div　class="backrgoundcolor"> <div　class="bankuai_list"> 　　　　　　　 <h3>社会民生</h3> 　　　　　　　 <ul> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml"　id="item天际杂谈">天际杂谈</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml"　id="item国际察看">国际察看</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml"　id="item天际时空">天际时空</a></li> 　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml"　id="item传媒江湖">传媒江湖</a></li> 　　　　　　　　　　　　　　 ……　//省略 </ul> </div> <div　class="clear"></div> </div> <div　class="nobackrgoundcolor"> <div　class="bankuai_list"> 　　　　　　　 <h3>文学读书</h3> 　　　　　　　　　　　　　　 <ul> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/techforum/articleslist/0/16.shtml"　id="item莲蓬鬼话">莲蓬鬼话</a></li> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml"　id="item煮酒论史">煮酒论史</a></li> 　　　　　　　　　　　　　　　　　　　　　 <li><a　href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml"　id="item舞文弄墨">舞文弄墨</a></li> 　　　　　　　　　　　　　　　　　　　　　 …….//省略　　　　　　　　　　　　　　 </ul> </div> <div　class="clear"></div> </div> …….//省略