来源:www.wangzhan.net.cn 作者:石家庄网站建设小编 时间:2020-07-08 10:40:57 浏览:2065次
网站日志记录的是搜索引擎对于网站的具体操作,当然不仅仅是搜索引擎,确切的说应该是所有进入网站的用户对网站进行的操作,如登陆页面、点击页面数量、页面停留时间等等。通过网络日志我们可以清楚的去了解每一个IP在网站上进行的操作,可以让我们更快捷的对网站进行全面的了解。
举例来说,如果网站被攻击,我们可以通过网络日志来找到来路ip然后通过技术手段将其屏蔽等等。那下面我们来具体讨论的内容就是网站日志文件中的所有内容,让数据告诉我们蜘蛛进入我们的网站还有进行的操作来方便我们对SEO方案的下一步实施做出调整。下面笔者将向大家介绍日志分析的三个主要方面,第一个是我们可能会从特定站点看到的日志类型,外观,信息的含义;第二个是如何分析这些数据以及如何获得想要的内容;第三个是如何使用它来优化我们的页面和站点。
一,网络日志类型
日志有三种主要类型,主要是Apache但是我们还将看到W3C,弹性负载平衡,在诸如Kibana之类的产品中可能会看到很多。但是我们也可能会遇到一些自定义日志文件。因此,对于那些较大的网站,这并不罕见。我知道每个服务器其实都有一个自定义的日志文件系统,可以快速是自定义类型设置。
我们在这些日志中能看到什么呢?我们希望可以肯定地看到:
1、请求服务器IP;
2、时间印记,即发出此请求的日期和时间;
3、所请求的URL,那么他们正在访问哪个页面;
4、HTTP状态代码,是否为200,是否已解决,是否为301重定向;
5、用户代理,因此对于我们的SEO,我们只看这些用户代理的蜘蛛信息。
因此,日志文件通常会存储所有数据,个人访问量和访问量,但我们要分析搜索引擎蜘蛛的访问量。有时包括方法获取/发布,然后花费的时间,客户端IP和引荐来源网址。从本质上讲,我们可能会看到该IP,即那个红色的IP地址,该时间戳,获取/发布或者不一定需要在某些方法中使用它。分析最好了解所有这些内容,所请求的URL,状态代码以及所有这些内容。
二,网站日志分析
我们要如何处理这些日志数据呢?又要如何来使用它们呢?很多工具非常适合为我们完成一些繁重的工作,笔者经常用的是爱站工具里分析网络日志,简单,而且是免费的,当然也还有其他的很多网站日志分析软件,我们可以根据个人的习惯来选择,但是我们必须将日志文件设置为特定类型的格式,以便他们来分析使用。
如果我们找不到合适的日志分析工具,也不要紧,可以直接手动通过Excel来进行分析。我将CSV日志文件导入Excel,使用文本导入向导,基本上可以分隔出各种的分隔符号。无论是空格,逗号还是引号,我们都可以将其分解,以使它们每个都位于各自的列中且不会担心会有多余的空白列。我们只需要创建数据透视表即可,可以链接到有关如何轻松实现此目的的资源。
热门页面,从本质上讲,我们可以在Excel中看到的是按频率显示,搜素引擎蜘蛛排名最高的页面是什么?根据请求的次数,这些首页是多少?
热门文件夹,我们还可以查看顶部的文件夹请求,最重要的是我们还可以查看以下内容:哪些最常见的蜘蛛类型影响了我们的网站?是Googlebot-Mobile吗?是Baiduspider-image吗?他们在寻找正确的资源吗?这些都是很重要的信息数据。我们也可以使用状态码创建数据透视表,然后进行查看。我们现在可以洞悉以下内容:首页中的某些页面是如何解析的?顶部的文件夹是什么样的?
以谷歌为例,我们可以针对Googlebot IP进行此操作。这是我在日志文件分析中发现的不错的方式,将Googlebot IP创建一个数据透视表,通常会得到有时是一堆,但我会得到所有独特的,而且我可以在大多数标准计算机上的计算机上运行终端。我们要做的就是输入“主机”,然后输入该IP地址。我们可以使用此IP地址在网站的终端上执行此操作,然后它将作为Google.com解析。这证明它确实是Googlebot,而不是其他一些欺骗Google的爬虫。因此,这些工具往往会自动处理这些问题,但是也有一些方法可以手动完成。
三,优化页面并抓取预算
我们如何优化这些日志数据并真正开始增加我们的抓取预算呢?所谓抓取预算主要是指直至进入我们的网站的次数以及它们通常抓取的页面数。搜寻预算是什么样子,又如何来提高效率呢?
1、服务器错误意识:服务器错误意识是非常重要的,最好留意某些页面上500个错误的增加。
2、404s:蜘蛛找到的所有400页面,这一点非常重要。400请求是有效的400吗?该页面是否存在?还是它应该存在但不再存在的页面,而我们可以修复。如果哪里有错误或不应该在那里,引荐来源是什么?蜘蛛是如何发现这一点的?我们如何开始清理其中的某些东西?
3、隔离301s并修复常见的301链:301s在日志文件中有很多关于301s的问题。我们发现最好的方法就是隔离并修复最常见的301链。因此,我们可以在数据透视表中执行此操作。当我们将其与爬网数据进行配对时,这样做实际上要容易得多,因为现在我们对该链有了更多了解。我们可以做的是,查看最常见的301,然后查看该链是否有任何简单,快速的修复方法?有什么可以删除并迅速解决的问题?
4、移动优先:我们可以先关注移动版蜘蛛。如果我们的网站首先使用移动设备,则可以对其进行挖掘,查看日志并评估其外观。Googlebot仍然看起来像兼容的Googlebot 2.0。但是,它将在括号之前包含所有移动含义。因此,我确信这些工具可以自动知道这一点。但是,如果我们要手动执行某些操作,则最好了解其外观。
5、缺失的内容:蜘蛛发现和抓取的内容是什么,它们完全丢失了什么?最简单的方法是与我们的站点地图进行交叉比较,这是一种非常实用的方法,可以查看可能遗漏的内容以及原因以及如何以及可能的情况下如何重新安排站点地图中的数据优先级或将其集成到导航中。
6、比较点击率与点击量:对蜘蛛的点击频率与点击量进行比较,这样的操作让我们不仅可以看到潜在的相关性,而且还可以看到可能要增加爬网流量或在特定的高流量页面上进行爬网的位置。
7、网址参数:看看Googlebot是否使用参数字符串访问任何网址。我们不要那样它通常只是重复的内容或者可以在Google Search Console中通过参数部分分配的内容。
8、评估天,周,月:我们可以评估网站的天,周和月。每周都会有高峰吗?每月都有峰值吗?
9、评估速度和外部资源:我们可以评估请求的速度,以及是否有潜在的外部资源可以清理并加快爬网速度。
10、优化导航和内部链接:根据SEO系统学习中的方式来优化导航并使用操作来优化索引。
11、元noindex和robots.txt不允许使用:如果我们不想在索引中包含某些内容并且不想从robots.txt中进行检索,则可以添加所有这些内容并开始也可以帮助解决这些问题。
四,重新评估
最后,将爬网数据与其中的某些数据连接确实很有帮助。如果我们使用的是类似Screaming Frog的工具就要知道它们允许与不同的服务器日志文件进行这些整合分析,从而为我们提供了更多的见解。而我们要做的只是需要重新评估即可。
(转载请注明转自:www.wangzhan.net.cn,谢谢!珍惜别人的劳动成果,就是在尊重自己!)
上一篇:优质网页中的7个SEO概念
下一篇:如何评估网站外链
24小时服务热线:400-1180-360
业务 QQ: 444961110电话: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省首批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。