Webharvest网络爬虫操纵总结[Java编程]
本文“Webharvest网络爬虫操纵总结[Java编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
Web-Harvest是一个Java开源Web数据抽取工具.它可以汇集指定的Web页面并从这些页面中提取有效的数据.其实现原理是,按照预先定义的配置文件用httpclient获得页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后应用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容挑选操作,选取切确的数据.前两年对比火的垂直搜索(比方:酷讯等)也是采取近似的原理实现的.Web-Harvest利用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码.当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置.
目前以爬取天际论坛的全部版面信息为例,介绍Web-Harvest的用法,分外是其配置文件.
天际的版块地图页面时:http://www.tianya.cn/bbs/index.shtml
[天际的部份版面列表]
我们的目标就是要抓取全部的版块信息,包含版块之间的父子关系.
先查看版块地图的页面源代码,追求规律:
<div class="backrgoundcolor">
<div class="bankuai_list">
<h3>社会民生</h3>
<ul>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天际杂谈">天际杂谈</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天际时空">天际时空</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
…… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
<h3>文学读书</h3>
<ul>
<li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬鬼话">莲蓬鬼话</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
…….//省略
</ul>
</div>
<div class="clear"></div>
</div>
…….//省略
以上是“Webharvest网络爬虫操纵总结[Java编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:
本文地址: | 与您的QQ/BBS好友分享! |