站长之家,中国草根站长新闻、建站经验、素材资源交流平台!
分类导航

站长新闻|网站运营|建站经验|网站优化|站长资源|站长源码|

服务器之家 - 站长之家 - 建站经验 - 网站日志分析经验分享

网站日志分析经验分享

2021-06-07 01:59站长网 建站经验

在分析日志的时候需要用到的工具:光年日志分析工具、web log explorer、MSSQL。还有一点,做好数据的分析excel是必备的,最近在看阿莫推荐的一本书,写的挺好的《你早该这么玩excel》,推荐大家看看,基础的应用还是要会的。

在分析日志的时候需要用到的工具:光年日志分析工具、web log explorer、MSSQL。还有一点,做好数据的分析excel是必备的,最近在看阿莫推荐的一本书,写的挺好的《你早该这么玩excel》,推荐大家看看,基础的应用还是要会的。

我们应该从哪几个维度来进行数据的整理分析呢?我们从基础信息、目录抓取、时间段抓取、IP抓取、状态码几点分布给大家讲解。

第一、基础信息

我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率。

平均每次抓取页数=总抓取量/访问次数 单页抓取停留时间=停留时间*3600/总抓取量 爬虫重复抓取率=100%—唯一抓取量/总抓取量

而以上这些数据,我们需要统计出一段时间的数据,看这个时间的整体趋势是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站点上个月的日志基础信息为例。

网站日志分析经验分享

这个基础表是上个月的日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需要加强。

网站日志分析经验分享

从这个整体走势来看出,爬虫的抓取总量整体是在下降的,这个就需要我们进行一些相应的调整。

网站日志分析经验分享

整体来看,网站重复抓取率是有点上升的,这个就需要一些细节,多一些为抓取的入口和使用一些robots及nofollow技巧。

网站日志分析经验分享

爬虫单页的停留的时间,国平老师曾经写过那篇网页加载速度是怎么影响seo流量的文章,大家应该看过吧。提高网页加载速度,减少爬虫单页停留时间,可以为爬虫的总抓取做出贡献,进而增加网站收录,从而提高网站整体流量。在16号至20号左右服务器出现一些问题,之后进行调整后,速度明显变快,单页停留时间也相应的下来了。

而对此进行相应调整如下:

从本月整理来看,爬虫的抓取量是下降的,重复抓取率是上升的。综合分析,需要从站内链接和站外的链接进行调整。站内的链接尽量的带锚文本,如果不能带的话,可以推荐其他页面的超链接,让蜘蛛尽可能的深层次的抓取。站外链接的话,需要多方面的发布。目前平台太少了,如果深圳新闻网、商国互联等站点出现一丝差错的话,我们站点将受到严重影响。站外平台要广,发布的链接要多样话,不能直发首页的,栏目及文章页面需要加大力度。目前,来讲站外平台太少,将近10w的外部链接,集中在几个平台上。

第二、目录抓取

用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果。如图,

网站日志分析经验分享

绿色:主做栏目 黄色:抓取较差 粉色:抓取很差 深蓝色:需要禁止栏目

网站日志分析经验分享

可以看到整体的趋势并没有太大变化,只有两个栏目的抓取是有较大变动的。

通过上面两个图,进行相应调整如下:

通过图表中科院产出,整体抓取较少。主做栏目中,抓取较少的为:xxx、xxx、xxx。对于总体来说,需要加大整个网站的导入口,需要外链配合,站内需要加强内部链接的构建。对于,爬取较弱栏目进行加强处理。同时,深蓝色的栏目写入robots中,将其屏蔽,并将网站中导入到这些栏目是URL进行 nofollow避免权重只进不出。

第三、时间段抓取

通过excel中的数组函数,提取每日的时间段的爬虫抓取量,重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。

网站日志分析经验分享

图中一些表粉色的,是抓取不正常的时间点,可以看出服务器并不是特别的稳定。而且,如果想知道特殊情况的话,可以从下图中一眼看出,某日哪个时间点出问题了,而且同样是总抓取是下降的趋势。

网站日志分析经验分享

通过时间段抓取,我们进行相应的调整:

通过图中的表色,可以看出服务器并不是特别的稳定,我们需要加强服务器的稳定性。另外,17、18、19三天,连续被人攻击、挂链等,但是爬虫抓取正常,这说明这些对网站已经造成了一定影响!

第四,IP段的抓取

通过MSSQL提取日志中的爬虫的IP,通过excel进行统计,每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。

网站日志分析经验分享

第五,状态码的统计

在这个之前你需要了解下,HTTP状态码返回值代表是什么。

网站日志分析经验分享

图中,可以看出304状态码比较多。如果一个网站被搜索引擎抓取的次数以及频率越多那么他是越有利于排名的,但是如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数,从而让自己的网站排名比别人落一步。调整:服务器可以清除下缓存。

还有最后一张图,百度爬虫的数据图,密密麻麻的数据,以上所有的数据都是从这里调用出来的。

网站日志分析经验分享

以上是后知对于上月某网站的日志分析,,希望各位高手能够多多拍砖,指出小弟的不足,让后知能够继续进步。谢谢!

延伸 · 阅读

精彩推荐
  • 建站经验腾讯高手都在学的「感知性模式设计」是什么?

    腾讯高手都在学的「感知性模式设计」是什么?

    如果沿用到互联网方面的设计,那么感知性模式的例子可能包括:文字信息、版式、配色、布局、插图、图标、形状纹理、间距、交互或者动画等等,这些...

    优设7802021-08-03
  • 建站经验网站中了木马怎么办

    网站中了木马怎么办

    网站中了木马怎么办?网站被黑中了木马也不算是比较稀奇的事情,不过大多数人是遇不到的,一般出现这种情况的网站都是一些比较高端的企业网站,或者...

    站长之家4802021-09-24
  • 建站经验如何在百度知道发外链的技巧

    如何在百度知道发外链的技巧

    百度知道作为国内最大的互动问答平台,每天云集了数以千万计的访客,而且百度关键词搜索结果中,百度知道页面也有着不错的排名,这就让了不少站长...

    站长之家9192021-07-03
  • 建站经验个人站长怎样选择做网站

    个人站长怎样选择做网站

    做网站是为了赚钱,我相信没人会反对,网站有了流量,才能赚钱,本篇文章将为大家介绍做站方向的取舍,使流量来的快,竞争小。 ...

    建站教程网5232020-09-03
  • 建站经验关于站内搜索分析的重要性和方法

    关于站内搜索分析的重要性和方法

    SEO!PPC!内容规划!转化率啊!?当我们殚精竭力、勤勤恳恳劳作,加以虔诚的态度,拜请到各位访客,可90%的人都洒脱的挥一挥衣袖不带走一 片云彩,让咱们这...

    建站教程网9312021-06-09
  • 建站经验网站建设初期的SEO优化定位

    网站建设初期的SEO优化定位

    根据 网站建设 的性质我们可以分为两种:一种是产品的商城,一种是做服务的网站。每一个网站在建设之前都会考虑行业的竞争对手的手法还有自身行业...

    站长之家9952021-01-28
  • 建站经验网站更换服务器有什么影响

    网站更换服务器有什么影响

    在我们日常维护 网站 的时候,可能会由于网站打开慢或者网站被攻击, 服务器 内部故障或者外部的原因都会导致我们的网站出现打不开的现象,有时我们...

    东德SEO4182020-12-04
  • 建站经验网店运营要学会两条腿走路:网店设计和营销

    网店运营要学会两条腿走路:网店设计和营销

    百度重新收录淘宝店,对于运营淘宝店的店主们应该是一个好消息...

    开店教程网3162020-08-21