在Google站长工具的覆盖率报告中,如果发现不少页面因为“已发现 – 尚未编入索引”、“已抓取 – 尚未编入索引”等问题处于已排除范围内,说明这些页面尚未被谷歌收录,这也是为什么很多网站谷歌收录页数相比实际页数少很多的原因。本文将告诉你,应该如何处理这类问题。
Google收录的有效页面太少怎么办?这个问题要分两种情况来看:刚刚提交的新站以及已经提交较长一段时间的网站。
刚刚上线,开放抓取的网站,即便第一时间就向Google提交了站点地图让其抓取网址,也无法立即让所有的网页被收录。谷歌收录网站的速度从这些年的趋势来看是越来越慢,对待网页的态度也变的挑剔了起来,不再是来者不拒。质量不行的网页,Google认为没有价值的网页,即便提交也难以被收录。如果你的网站页面没有任何技术问题,比如屏蔽了抓取等、内容质量也过的去,那么还是有很大几率被收录的,但需要时间让谷歌慢慢来。
从上图中就可以看出,Google收录页面的数量是慢慢增多的,不会一下子就把所有的网页都收录。另外,如果页面存在无法被收录的错误,也会提示出来。但要注意,这些提示并不是绝对的,谷歌识别抓取程序有时也会犯错,有些页面没有问题也可能在开始时报错,但随着时间的推移Google会自己修正大部分识别错误。
所以,对于刚刚提交的网站,如果发现覆盖率中显示的有效页面较少,也无需过多担心,建议再观察一个月左右的时间,看看收录情况是不是越来越好。如果过了一个月的时间,仍然有大部分页面没被抓取,或者提示错误的页面越来越多,那么就需要查看下具体错误原因了。
如果你的网站已经提交了比较长的一段时间,发现Google收录的有效页面还是很少,还有很多页面没被收录。你可以在谷歌站长工具中打开覆盖率的详细报告:
通常你会发现,未被收录的网页基本上都被归入到了“已排除”的类别中:
网页被排除的原因主要有以下几种:
已发现 – 尚未编入索引:Google已经发现了页面,但是还未进行抓取;谷歌曾经尝试进行抓取时发现过载情况,于是准备另外安排时间进行抓取。这里说的过载,意思是谷歌抓取队列中排入了过多的网页,暂时没有额外的抓取资源分配到该网页上,只能另外安排时间。
已抓取 – 尚未编入索引:谷歌已经抓取了该网页,但暂时没有编入索引,可能会不定时安排编入索引,无需重复抓取。
被“noindex”标记排除了:网页自身采取了“noindex”标记屏蔽收录。
抓取异常:Google尝试抓取页面时出现了异常情况导致抓取失败。抓取异常并不意味着一定有问题,比如Wordpress网站的一些内部文件一般是不允许抓取的,也可能导致这个问题。确定下抓取异常的网页是不是网站的常规页面,包括产品页以及文章页面等。有时候服务器的不稳定也会导致谷歌无法访问、抓取网页。
除了上述常见的原因,网页被排除还存在的可能有:网页会自动重定向、备用网页(有适当的规范标记)、软 404、已被 robots.txt 屏蔽、重复网页,用户未选定规范网页、未找到 (404)等。Google会抓取到网站很多资源,不光光是你认为的常规页面,查看这些原因影响到的具体网页,如果不是网站的常规页面,就无需过多在意。查找到的无意义页面,如果比较介意的话,可以通过robots协议进行屏蔽,不让谷歌抓取。
大多数没有深入研究过谷歌站长工具的人,一看有效页面,就会认为是已经被收录的页面。其实,有效页面有两个标准:被收录以及可以展示在搜索结果中,也就是说Google上搜索这个页面地址,可以找到这个页面,这类页面才能叫做有效页面。
在使用谷歌站长工具平台的过程中,我们经常发现,已排除的网站常规页面中,有不少经检测显示已经收录入索引库中,而且显示在了搜索结果中:
但,实际上去搜索这个页面时,会发现谷歌里搜不到这个页面。由此,我们猜测的结果就是页面应该是被谷歌识别抓取了,但未像检测结果中说的那样:此网址已显示在 Google 搜索结果中。所以,这个页面仍然被归类到了已排除中,而未被归类到有效页面中。
长期的使用过程中,我们发现谷歌站长工具的覆盖率报告有很高的延时性,报告中显示的数据量与目前实际的情况不相符,数据不够准确,尤其是网站上线时间还不够长的情况下。如果想要查看网站目前实时的收录情况,可以使用谷歌高级搜索指令site:你的域名,即可查看到此时网站被收录的页面数量。以我们自身的网站为例,通过这个方法可以查看到,我们搜索时,网站一共有116个页面被谷歌收录在索引库中。
上面说过,Google收录了不代表就是有效页面。只有有效页面才能参与排名、获取流量。想要查看网站的实时有效页面也很简单,跟查看收录情况一样的方法,然后在搜索页面的底部点击到最后一个搜索页面:
这时,你再看下搜索页面顶部显示的页面数量,即为网站此时的有效页面数量:
可能有人会问,为什么收录了却不展示在搜索结果里呢?谷歌收录了网页,说明网页本身没有什么问题,页面内容也达到了一定的质量标准;但,全网有太多的类似的页面内容(包括意思类似),在Google的价值判断体系中,你的网页还不足以取代已经列入搜索结果中的其他页面,所以暂时不与展示。所以,我方一直强调网站内容包括页面的内容一定要原创、尽量丰富,才能体现出越多的价值;有了价值,才能最大可能地被谷歌收录并展示在搜索结果中。另外,对于未收录的页面,可以采取一些促进谷歌收录的方法,提高页面被收录的可能性。已经被收录,但还不是有效页面的网页,可以尝试再次“请求编入索引”,也有机会转正。
不需要强求网站每个页面都是有效页面,在优化的基础上,内容方面遵循原创然后尽可能地丰富即可。因为,没有人能够知道Google具体是怎么认定内容价值的。谷歌的判定标准是不断变化的,即便有的页面之前是有效页面,可能过段时间就不是了。而且,已经被收录的网页就能够提供基础权重,没必要非是有效页面。所以,网页被收录了就有价值,能够成为有效页面更好。
也因此,不建议网站内部大量重复铺产品,没有多少意义,雷同的页面多数不会被收录;页面的url地址也不要太长,不方便抓取与记忆。外贸网站的产品页面url以及文章页面url通常是依据标题自动生成的;Google的搜索结果中,页面标题一般只会显示前8个单词(普通长度),外贸网站的产品、文章标题建议也控制在8个单词以内,如果某个单词较长,可酌情减少单词数量。这样,url中即可包含产品关键词,又不会因太长造成不好的影响。
Tags:谷歌收录提交入口 谷歌收录少 收录量和索引量的区别
本文地址:http://sjzytwl.xhstdz.com/quote/70563.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多