软件名称:[B]光年SEO日记解析系统 2.0 中文绿色版(IIS日记解析)[/B]
软件类型:国产软件
运行环境:Win9X/Win2000/WinXP/Win2003/
软件语言:简体中文
授权方式:共享版
软件大小:5.00 MB
官方主页:www.233122.com
更新时间:2013-01-18 19:50:00
软件简介:
《光年SEO日记解析系统》对网站的IIS日记举行解析,可以解析超日记文件.
1,这是第一个专门为SEO计划的日记解析软件.
从前的很多日记解析软件,都是顺带解析一下SEO方面的数据,而这个软件里面解析的每一个指标都是为SEO计划的.并且很多的解析维度,都是其另日记解析软件没有的.这能让你看到很多非常有效、但是从前获得不了的数据.
2,它能解析无限大的日记,并且速度很快.
很多的日记解析软件,在日记大于2G今后,城市越来越慢大概程序无呼应.而这个软件能解析无限大的日记,并且每小时能解析完40G的日记.这关于那种需求解析几个月内的日记、以及要解析几十G的大型网站的日记都非常有帮忙.
3,能自动判断日记格局.
目前很多的日记解析软件,对Nginx大概CDN日记都不支持,并且对日记记录的次序都要格局要求.而这个软件就没有这么多的限制,它能从日记中自动检测到哪个是时间、哪个是URL、哪个是IP地址等等.
4,软件容量小、操作简单、绿色免安装版.
这个软件不会动不动就几十M,目前软件还不足1M,可以用邮件附件非常便利发出去. 软件的操作也很简单,三个步骤便可以. 还有就是软件不需求安装,是绿色免安装版.
软件的缺陷:
目前因为在办理软件的效率问题上花了很多时间,所以目前日记解析的维度还太少,今后会渐渐增添很多功效.还有就是数据的精确性固然还可以,但是还有很大的改良空间.
第二版增添了更多的解析维度,还增添了日记拆分的功效.
下面先来看几个固定的解析维度,下面的数据是semyj.com我这个博客的日记解析数据.
首先是“概要解析”:
概要解析
这里有各个爬虫“拜候次数”、“总逗留时间”和“总抓取量”的统计.从上面这个数据可以看出,百度爬虫的抓取深度是不高的:拜候1868次,抓取量是2968,平均每次抓取1.59页.这其实是百度爬虫广泛的抓取特点,在绝大部份网站上都是这个规律.抓取深度不高的话,会造成很多层级很深的页面不会被抓取到;以及造成少数页面被反反复复在抓取,浪费了爬虫的时间.这样,很多网站想要在百度上得到收录就成了问题,分外是大中型网站.我所接触的全部大中型网站,在决心去优化之前,一年下来很多网站至少还有一半的网页没有被百度爬虫抓取到,部份网站乃至更严重.相比之下Google的抓取深度就好很多,总的抓取量也大一些.
这里面对比重要的数据是那个“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量.在《网页加载速度是若何影响SEO效果的》一文中阐明过抓取量和SEO流量的关系.这个“总抓取量”的数据是好还是坏,是要按照每个网站的实际情形来看的.就semyj.com这个网站来说,它目前有53篇文章,300多个网页,而目前谷歌每天有16484个抓取量,百度有2968个抓取量.假如光看这个数据,那看起来这300多个网页基本上在一天之内应当是能被抓取到的.但是很多大中型网站就不一样.
这里我先要阐明一个有些人会混合的问题.为什么我上面会决心阐明一下文章数目和网页数目呢,这是因为文章数目必定是不等于网页数目的.不过有些人去查收录量的时刻就轻忽了这个常识.如某网站的文章量(或称单个资讯数目)是30万,去搜索引擎用site等语法去查询收录量是29万,就认为自己的收录量差不多了,而实际大概差得很远.
因为单个页面城市派生出很多其他页面的.假如翻开某一个文章页面,去数一下里面的URL,除去那些模板上反复的,还是有那么一些URL是只有当前这个页面上才有的,也就是这个页面派生出来的.而一个URL对应一个页面,所以一个网站上拥有的页面数目是这个网站的信息量的好几倍,有时乃至是十几二十倍.
所以在看这个“总抓取量”之前,需求把自己网站内大概拥有的页面数目统计一遍.可以用lynx在线版把每一范例的页面上的URL都提取出来看一看.网页总的数目知道了,再和“总抓取量”做比较,便可以知道这个数据是好还是差了.我认为基本上,谷歌爬虫的抓取量如果网站页面数目的2倍以上,抓取量才算合格,百度爬虫就需求更多了.因为实际上这个抓取量里面还有很多是反复抓取的;还有和上一天相比,每天的新增的页面抓取不是很多的.
这三个数据:“拜候次数”、“总逗留时间”和“总抓取量”,都是数字越高对网站越有利,所以需求想很多办法提高他们.大大都时刻看他们绝对值没什么用处,而要看目前的和过去的对比值.假如你能每天去一向追踪这些数据的改变情形,就可以发现很多因素是若何影响这些数据的.
以下其他数据也是如此:某个当前数据的值有时刻不一定有意义的,但是长期跟踪这个数据的改变就可以发现很多因素之间是若何彼此影响的.
然后是“目录抓取”的数据:
目录抓取统计
这个“目录”抓取的数据是对“总抓取量”的一个细分.一个网站当中,一定是有重点页面和非重点页面的,这个数据便可以让你看看哪一范例的页面被抓取的多,及时做一些调整.
还有就是可以去搜索引擎按URL特点查询一下各个目录下的页面的收录情形,再来和这个目录下的搜索引擎的抓取数据做一个比较,便可以发现更多的问题.关于semyj.com来说,看完这个数据就知道,大概那300多个网页在一天之内还是不能全部被抓取一遍的,因为本来大部份抓取都在bbs这个目录下.(有时刻就是有很多这样不测的情形发生,bbs这个目录早已经做了301跳转,没想到还有这么大的抓取量.——看数据永久能知道本相是什么.)
接着是“页面抓取”的数据:
页面抓取
这个数据把一个网站中那些被反复抓取的页面统计了出来,并辨别统计是哪些爬虫辨别抓取了多少次.大家多解析几个网站就会懂得,百度爬虫常常是过度抓取的常客.这个数据也考证了前面的数据:因为它平均每次抓取1.59页,也就是每次来抓取都逗留在表层,但是又常常来抓,所以必将招致少部份页面是常常被百度抓取的.因为有反复抓取的存在,所以一个网站光看抓取量大不大是没什么用的,还要看有多少不反复的页面被抓取到了.还有就是要想办法办理这个问题.
在“蜘蛛IP排行”数据里,统计了每个爬虫IP的拜候情形:
IP排行
假如解析过很多网站,就会发现爬虫对某一个站的拜候,特按时间内的IP段城市集合在某一个C段.这是由搜索引擎的原理决意的,感爱好的朋友可以查询相关书籍.知道这个特点有时刻可以用得着.
报表里有个查询IP地址的功效,可以查询那些爬虫IP是不是真的,如上图红框内的IP,就是一个假装成谷歌爬虫的采集者.
这个数据和上面的全部数据都一样,前后比较便可以发现更多的信息.
以下是“关键字解析”的数据:
关键词解析
“范例”这里是阐明这个关键词是从网页搜索还是图片搜索或视频搜索里来的SEO流量.而“上次用关键字”,是统计用户搜索当前的关键词进入网站之前,是在搜索什么词语.这个功效只有百度有效,因为百度在url中记录了用户上次利用的关键词. 这个地方的界面还需求改正,下一版本中会完善.
“状况码解析”报告中,目前把用户碰到的状况吗和爬虫碰到的状况码脱离了,其他没有什么改变:
状况码
这里每一行数据都分为两个部份,第1部份是表示哪个文件呈现了这个状况码,第2部份是表示发生在哪个网页.从上面的数据可以看出,这个网站在被一些黑客工具扫描.
在《光年SEO日记解析系统》第二版中,最重要的进级是增添了“日记拆分”功效.有了这个功效,便可以用肆意维度去解析网站日记了.
以下是可以拆分的日记字段:
拆分字段
只要你的网站日记是齐备的,有了日记拆分功效这个功效就相当于有了一个数据仓库.这个时刻查看网站的数据,就:只有你想不到,没有它查不到的.
如:我们要查看上面那个假装成谷歌蜘蛛的IP采集了哪些网页,就把拆分条件定义为:ip等于222.186.24.59,agent等于谷歌bot,便可以把日记拆分出来了;还有要看是哪些IP在用黑客工具扫描网站时,就把拆分条件定义为:url等于MIRSERVER.RAR或等于WWWROOT.RAR等等便可以看到了.
我还倡议大家多去拆分爬虫的抓取轨迹,把某一个爬虫IP的抓取途径拆分出来,察看它的抓取途径,再和网站上的URL对应,就可以懂得爬虫抓取的很多规律.
其实本来还应当开辟一个日记归并的功效,但是这个功效实在太简单,普通我们用DOS里面的copy号令便可以办理这个问题:
Copy号令
这样,你可以把网站一星期内的、一个月内的乃至半年来的日记归并起来解析.《光年SEO日记解析系统》是支持解析无限大的日记的,只要你有时间.
在“设置”-“性能设置”里,有两个地方要注意.一个是那个“蜘蛛计算隔断”,这里表示一个蜘蛛多少时间内没有活动就算它脱离了.这里要注意比较解析的时刻每次都如果同一个时间,因为这里的时间按改变了,那计算爬虫来访的次数就变了.还有一个是“解析显示条数”,目前你可以自己定义在报表中要显示多少行数据,默许只有5条.
[url=http://www.xiamiku.com/soft/16656.html][B]光年SEO日记解析系统 2.0 中文绿色版(IIS日记解析)[/B][/url]
普通下载
普通下载
普通下载