相关动态
百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...
2024-12-08 16:02
百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题... 百度网

据 marketmechina 统计,去年12月份中国市场全平台 (桌面+手机客户端)搜索引擎市场份额

百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...

  • Baidu: 67.09%
  • Sogou: 18.75%
  • Shenma: 6.84%
  • Google: 2.64%
  • bing: 2.6%
  • Other: 2.08%

不得不说,即使大家现在如此 diss 百度,这中文搜索的第一把交椅,百度还是坐的很稳。想要获得中文搜索的流量,百度这一入口不容忽视。

Github Pages 这项服务自上线后,很快就成为了程序员搭建静态个人博客的最佳之选,大家喜欢的原因有很多,比如

  • 可以像写 code 一样写文章
  • 可以通过命令行 git push 一键发布网站,酷炫
  • 静态网页生成框架选择众多,插件完善,自定义性很高
  • 如果懂点前端,上手非常容易

更不用提版本追踪、多人协作这些 Git 自带的优势了。2013年,我也是用 Jekyll 在 GitHub Pages 上搭了个人第一个博客。

然而,2015年,因为一些不能细说的原因,Github 开始拒绝百度爬虫的访问,直接返回 403。

官方给出原因是,百度爬虫爬得太狠,影响了 Github Page 服务的正常使用。这就导致了,但凡在 Github Page 搭建的个人博客,都无法被百度收录。

自去年年底佛罗里达之行回来,我开始写中文游记,目前为止,Google 收录非常及时全面,SEO 效果也很不错。但如果只有国外的中文读者可以搜索到这些文章,那国内这最大的一批中文读者就被忽略了,再好的内容无法被分享出去也是白搭。

于是,我开始捣鼓如何让百度爬虫收录我的个人博客。

我在网上粗略搜了一番,不少人提到 CDN,然而,CDN 无法完美解决问题,尤其对小流量的个人博客。

传送门:什么是 CDN。

先说结论,CDN 无法完美解决问题,尤其对小流量的个人博客。

原理上来讲,CDN 解决了最后一公里的资源分发,如果国内的 CDN 服务器有博客的静态文件,那百度爬虫访问时直接从 CDN 节点上爬取资源,Github 源站拒绝访问的问题自然就不存在了。

但是,问题就出在 CDN 节点上。第一次访问时,CDN 上的缓存还未建立,爬虫的请求会被转发到 Github 源站,由于转发请求默认携带了百度爬虫的UA 还有原始 IP,GitHub 发现后会直接拒绝。

有些人会说,国内有些 CDN 厂商支持主动缓存预热(老本行 ),但缓存是有失效时间的,expired 之后,照样得回源。对于流量小的个人博客,想让资源一直缓存在 CDN 节点上,不现实,新写的文章怎么发布?修改的文章怎么更新

当然,如果 CDN 节点回源时能够不带上客户端 User Agent,Github 便认不出这是正常访问还是百度爬虫了。这个方法是可行的,很多人提到了用 Nginx 反向代理,然后 override forward IP,这确实可以糊弄过去。只不过,这些方法都需要一定的定制能力,如果是个人开发者,还得买一台 VPS 或者云服务器。

国内 coding.net 现在也有了类似于 GitHub Pages 的服务:Coding Pages。

在博客静态文件 repo 的配置中同时加上 Github 和 coding.net 的 remote 地址,这样一键发布,两地更新。加上域名智能解析,对于国内的请求,转发到 Coding Page 即可。

可惜的是,现在 .coding.me 和 .coding.io 访问时会先出现跳转页面,导致百度爬虫无法正常收录。

答案是,有

前段时间逛 Twitter,看到大神 Guillermo Rauch 的一篇文章 2019 in Review,顺便就去看了他们创业正在做的产品,zeit.co,提供的正是免费的静态资源 hosting 服务。

抱着试试的心态,我跟着官网文档,不到十分钟就配完了,用百度爬虫一抓,200

写这篇博客的时候刚好一周,从百度站长上看,文章正在慢慢被收录。

其实 zeit.co 的原理跟上述几个思路类似,本质上他们提供了 Storage + CDN + DNS 这一套完整服务。根据他们的文档,整个过程我只需要

  • 用我的 Github 账户登陆,给了 zeit 我的静态网页 repo 的 read 权限
  • 等几秒,importing
  • 部署成功

不用写任何 code,点两下鼠标就完事了。部署完成后,会生成一个类似于 xxxxxxx.now.sh 的链接,点击即可访问,静态资源已经部署到了他们的边缘 CDN 节点上。

到了这一步,接下来需要做的就是切换域名,通过智能 DNS 把国内流量切过去。

不过,为了省事,我决定直接放弃 GitHub Page 提供的 CDN 功能,原本的一套技术栈是 GitHub + GitHub Pages(Fastly CDN)+ Default DNS,如果 zeit 能够提供足够智能的 CDN 和 DNS 服务,没有必要中间套两层 CDN,新的技术栈变成了 GitHub + zeit Smart CDN + zeit Smart DNS。一旦有新的文件 submit 到 GitHub,zeit 就能自动触发更新,这跟 GitHub Pages 是一样的。

于是,我把自定义域名到 Github Page 的 CNAME 记录,换成 zeit.co 提供的 TXT 和 CNAME 记录(TXT记录用来验证)。

后来,我发现更好的做法是,直接用 zeit 提供的 nameserver 智能 DNS,测下来解析比域名自带的免费 DNS 效果还要好。下图是他们的 CDN 节点分布,中国附近台湾和香港都有节点,国内访问应该速度不会太慢。

除了以上提到的这些,zeit 还提供了一些小 feature,比如免费的 HTTPS,基本GitHub Pages 有的 zeit 都有。对于免费用户,每个月流量限额是20G,这点对我来说已经远够用了。

    以上就是本篇文章【百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/10668.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机怎么恢复备份?详细攻略为你整理好了!云备份怎么恢复到手机「苹果手机怎么恢复备份?详细攻略为你整理好了!」
随着智能手机和互联网的普及,手机中存储的个人信息、照片、视频、聊天记录等数据会变得越来越多。一旦手机丢失、损坏或系统出现
李亚鹏正式息影 投资50亿丽江当老板金立手机老板「李亚鹏正式息影 投资50亿丽江当老板」
  华西都市报4月28日讯 昨日,李亚鹏打造的“云南省文化产业试验园”项目北京签约“我每年只选一部戏来拍,这已经严格遵循了10
怎样采用比特币挖矿?手机挖矿「怎样采用比特币挖矿?」
好吧,废话不多说了,其实比特币 - Bitcoin 出现时间已经很久了,不过对于新手来说,还是需要讲解一下的。关于比特币。FORECE 在
定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?苹果手机发布会「定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?」
又是九月,丰收的季节,今年的苹果又该熟了.......正如此前传闻那样,今晚苹果正式向外界发送了邀请函,宣布将于当地时间 9月7日
苹果手机微信闪退怎么回事苹果手机闪退是什么原因「苹果手机微信闪退怎么回事」
  品牌型号:iPhone12  系统版本:IOS14  苹果手机如果出现微信闪退的状况,首先我们得寻找原因,接下来小编就带着你们来
ZArchiver手机解压缩工具chm文件手机怎么打开「ZArchiver手机解压缩工具」
ZArchiver是一款功能强大的解压缩工具APP,可用于解压文件或压缩文件,软件支持多种文件格式的压缩和解压缩,包括ZIP、RAR、7Z、
【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命什么手机寿命最长「【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命」
一部手机最长能用几年?主要取决于以下这几个重要因素,才能决定手机的使用寿命。在当今社会,智能手机已经成为我们生活中不可或
iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案机械手机「iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案」
  文/晓光 于泽 瑞豪 视频/贾乾 图/苏航  从去年成立至今,iQOO这品牌发布了不到十款产品,并成功在互联网渠道占据了自己的
2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟华为手机模拟器「2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟」
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.ne
ADB驱动源码深度解析,从原理探究到实践应用android手机驱动「ADB驱动源码深度解析,从原理探究到实践应用」
摘要:,,本文深入解析ADB(Android Debug Bridge)驱动源码,从原理到实践全面阐述。文章首先介绍了ADB的基本原理和主要功能,
相关文章