相关动态
百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...
2024-12-08 16:02
百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题... 百度网

据 marketmechina 统计,去年12月份中国市场全平台 (桌面+手机客户端)搜索引擎市场份额

百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...

  • Baidu: 67.09%
  • Sogou: 18.75%
  • Shenma: 6.84%
  • Google: 2.64%
  • bing: 2.6%
  • Other: 2.08%

不得不说,即使大家现在如此 diss 百度,这中文搜索的第一把交椅,百度还是坐的很稳。想要获得中文搜索的流量,百度这一入口不容忽视。

Github Pages 这项服务自上线后,很快就成为了程序员搭建静态个人博客的最佳之选,大家喜欢的原因有很多,比如

  • 可以像写 code 一样写文章
  • 可以通过命令行 git push 一键发布网站,酷炫
  • 静态网页生成框架选择众多,插件完善,自定义性很高
  • 如果懂点前端,上手非常容易

更不用提版本追踪、多人协作这些 Git 自带的优势了。2013年,我也是用 Jekyll 在 GitHub Pages 上搭了个人第一个博客。

然而,2015年,因为一些不能细说的原因,Github 开始拒绝百度爬虫的访问,直接返回 403。

官方给出原因是,百度爬虫爬得太狠,影响了 Github Page 服务的正常使用。这就导致了,但凡在 Github Page 搭建的个人博客,都无法被百度收录。

自去年年底佛罗里达之行回来,我开始写中文游记,目前为止,Google 收录非常及时全面,SEO 效果也很不错。但如果只有国外的中文读者可以搜索到这些文章,那国内这最大的一批中文读者就被忽略了,再好的内容无法被分享出去也是白搭。

于是,我开始捣鼓如何让百度爬虫收录我的个人博客。

我在网上粗略搜了一番,不少人提到 CDN,然而,CDN 无法完美解决问题,尤其对小流量的个人博客。

传送门:什么是 CDN。

先说结论,CDN 无法完美解决问题,尤其对小流量的个人博客。

原理上来讲,CDN 解决了最后一公里的资源分发,如果国内的 CDN 服务器有博客的静态文件,那百度爬虫访问时直接从 CDN 节点上爬取资源,Github 源站拒绝访问的问题自然就不存在了。

但是,问题就出在 CDN 节点上。第一次访问时,CDN 上的缓存还未建立,爬虫的请求会被转发到 Github 源站,由于转发请求默认携带了百度爬虫的UA 还有原始 IP,GitHub 发现后会直接拒绝。

有些人会说,国内有些 CDN 厂商支持主动缓存预热(老本行 ),但缓存是有失效时间的,expired 之后,照样得回源。对于流量小的个人博客,想让资源一直缓存在 CDN 节点上,不现实,新写的文章怎么发布?修改的文章怎么更新

当然,如果 CDN 节点回源时能够不带上客户端 User Agent,Github 便认不出这是正常访问还是百度爬虫了。这个方法是可行的,很多人提到了用 Nginx 反向代理,然后 override forward IP,这确实可以糊弄过去。只不过,这些方法都需要一定的定制能力,如果是个人开发者,还得买一台 VPS 或者云服务器。

国内 coding.net 现在也有了类似于 GitHub Pages 的服务:Coding Pages。

在博客静态文件 repo 的配置中同时加上 Github 和 coding.net 的 remote 地址,这样一键发布,两地更新。加上域名智能解析,对于国内的请求,转发到 Coding Page 即可。

可惜的是,现在 .coding.me 和 .coding.io 访问时会先出现跳转页面,导致百度爬虫无法正常收录。

答案是,有

前段时间逛 Twitter,看到大神 Guillermo Rauch 的一篇文章 2019 in Review,顺便就去看了他们创业正在做的产品,zeit.co,提供的正是免费的静态资源 hosting 服务。

抱着试试的心态,我跟着官网文档,不到十分钟就配完了,用百度爬虫一抓,200

写这篇博客的时候刚好一周,从百度站长上看,文章正在慢慢被收录。

其实 zeit.co 的原理跟上述几个思路类似,本质上他们提供了 Storage + CDN + DNS 这一套完整服务。根据他们的文档,整个过程我只需要

  • 用我的 Github 账户登陆,给了 zeit 我的静态网页 repo 的 read 权限
  • 等几秒,importing
  • 部署成功

不用写任何 code,点两下鼠标就完事了。部署完成后,会生成一个类似于 xxxxxxx.now.sh 的链接,点击即可访问,静态资源已经部署到了他们的边缘 CDN 节点上。

到了这一步,接下来需要做的就是切换域名,通过智能 DNS 把国内流量切过去。

不过,为了省事,我决定直接放弃 GitHub Page 提供的 CDN 功能,原本的一套技术栈是 GitHub + GitHub Pages(Fastly CDN)+ Default DNS,如果 zeit 能够提供足够智能的 CDN 和 DNS 服务,没有必要中间套两层 CDN,新的技术栈变成了 GitHub + zeit Smart CDN + zeit Smart DNS。一旦有新的文件 submit 到 GitHub,zeit 就能自动触发更新,这跟 GitHub Pages 是一样的。

于是,我把自定义域名到 Github Page 的 CNAME 记录,换成 zeit.co 提供的 TXT 和 CNAME 记录(TXT记录用来验证)。

后来,我发现更好的做法是,直接用 zeit 提供的 nameserver 智能 DNS,测下来解析比域名自带的免费 DNS 效果还要好。下图是他们的 CDN 节点分布,中国附近台湾和香港都有节点,国内访问应该速度不会太慢。

除了以上提到的这些,zeit 还提供了一些小 feature,比如免费的 HTTPS,基本GitHub Pages 有的 zeit 都有。对于免费用户,每个月流量限额是20G,这点对我来说已经远够用了。

    以上就是本篇文章【百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/10668.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
选对的很重要,2024年旗舰爆品手机选购指南手机怎么选「选对的很重要,2024年旗舰爆品手机选购指南」
时间过的真快,感觉刚刚迈入2024年,转眼前已经临近2024年的中旬了,而相对于如今的市场来讲,各手机厂家更是纷纷打出了不同的“
转载丨稻盛和夫:全员参与经营,人人都是经营者手机搜狐网「转载丨稻盛和夫:全员参与经营,人人都是经营者」
“既然社长都这么说了,那我们也应该努力,一起为企业经营出谋划策。”员工一旦具有这样的心态,就等于是对企业经营倾注了意识。
车载手机支架怎么选?看看这十大品牌,稳固又实用车载手机支架「车载手机支架怎么选?看看这十大品牌,稳固又实用」
不管是新手司机还是老司机,车载手机支架是行车路上必不可少的工具。不仅要抱紧手机,还要牢牢地固定在控制台上,不受复杂路况的
第五代“江姐”扮演者王莉与红色传承的十年情结手机搜狐网「第五代“江姐”扮演者王莉与红色传承的十年情结」
为传承红色经典,中国人民解放军空军政治部文工团大型民族歌剧《江姐》全国巡演再次启程。《江姐》于11月18日至11月29日,陆续在清
steam手机客户端steam手机版下载「steam手机客户端」
steam是一款很专业的游戏平台,steam为你提供丰富的游戏资讯信息,在这里用户可以查看超多游戏的动态,超多最新最热的游戏资讯在
寻仙万象宝盘全攻略手机搜狐网「寻仙万象宝盘全攻略」
战力提升之《万象宝盘》系统来了,本文约5800字,图片约100张,阅读需要阅读15分钟。完整学习需要50分钟。提示:本篇万象宝盘系
如何辨别蛋白粉真假手机搜狐网「如何辨别蛋白粉真假」
在北上广深等一线城市,毫不夸张地说,一百米一个健身房!就拿小编的健身房为例,晚上七点之后,完全人满为患,导致小编每每要下
更换手机时,教你一键把旧手机资料导入到新手机,简单又实用旧手机如何导入新手机「更换手机时,教你一键把旧手机资料导入到新手机,简单又实用」
点击上方蓝色字关注我们~我们的手机刚刚买回来的时候,里边是什么东西都没有,一些重要的资料,都会在我们的旧手机里边,要想把
如何选择适合自己的手机?拯救你的科技生活!手机「如何选择适合自己的手机?拯救你的科技生活!」
在现代生活中,手机几乎已经成为了人们不可或缺的工具。从通讯、社交到娱乐和工作,智能手机以其多功能性影响着我们的日常。然而
“5G 太耗电,关掉它!”关闭手机「“5G 太耗电,关掉它!”」
作者 | Carol出品 | CSDN(ID:CSDNnews)随着5G的普及,如今已经有很多手机用户已经体验到了5G的便捷
相关文章