相关动态
Eastmoney-Spyder:股吧网页数据抓取分析(一)
2024-11-17 18:24

数据来源:热门个股吧 数据字段:阅读、评论、标题、作者、更新时间 实现功能:读取每个股吧的全部页面的数据并写入excel表中

Eastmoney-Spyder:股吧网页数据抓取分析(一)

Eastmoney-Spyder:股吧网页数据抓取分析(一)

我们需要抓取的是全部发帖信息的阅读评论标题作者最后更新时间这五个字段的数据,我一开始想也不是很难,解析一下网页匹配一下对应的标签值就可以了,但后面还是出现了各种各样的问题,需要大家注意一下。


① 网页源代码

首先打开网页的开发者工具(Ctrl+Shift+i,在源代码中查找对应字段的标签结构。

Eastmoney-Spyder:股吧网页数据抓取分析(一) 从图中可以看出,这五个字段分别位于行标签内,对应的属性分别是。想必大家已经有思路了,我们可以通过先获取网页代码,再解析网页查询对应的五个字段,最后做一个提取就可以了。

Eastmoney-Spyder:股吧网页数据抓取分析(一)

② 网页链接

【某一股吧:300059】 点击查看网页链接结构首页第二页 可以看出个股吧链接主要由三部分组成list、名称代码、页数

I.全部个股吧的数字代码

Eastmoney-Spyder:股吧网页数据抓取分析(一) II. 翻页数据

Eastmoney-Spyder:股吧网页数据抓取分析(一)

如何得到不同股吧的所有翻页数据,着实让我找了好久,各种资源我都找了可惜还是没有发现,突然无意之中我找到了解决办法,我直接一个好家伙

跟上述的五类字段一样,我们查看一下页数的代码字段,如下图所示Eastmoney-Spyder:股吧网页数据抓取分析(一) 我的第一个办法是直接解析网页后找到标签下的属性,其内容即为总页数,本来以为原来这么好获取,结果解析完才发现,里的内容是动态的,即是会随页而变化的,故直接requests并不能获取到,但是还是被我发现了玄机Eastmoney-Spyder:股吧网页数据抓取分析(一) 大家可以看这里,里面的内容是,我对比了几个页面后发现其中数字分别代表的是

 

那么这时候,我们就可以直接用累积多年的算力(小学除法)算出该股吧共有,向上取整共页!如果你也脱口而出好家伙的话,请在屏幕下方打出来


基本问题解决了,我们可以开始编写代码了。这部分不讲代码原理,只解释代码功能。如果代码存在问题或不清楚的话,欢迎大家在下方留言,我一定及时回复。

① 获取网页源代码

 

② 解析网页并提取数据字段

 

③ 获取股吧总页数

基于解析的网页直接find_all也是可以的
 

上述代码基本的字段已经可以实现抓取了,结果如下

Eastmoney-Spyder:股吧网页数据抓取分析(一) 可以看到,我这里的时间多了年份,这是由于研究的需要,在基于一次抓取的结果上,进行二次抓取标题所带的链接网页获得的,有关二次抓取的内容,我们再下一节再和大家分享。

Eastmoney-Spyder:股吧网页数据抓取分析(一)


在抓取过程中,我还遇到了很多问题诸如: ① 部分帖子结构不同或存在冗余该如何处理(问董秘等链接) ② 抓取过程中ip被屏蔽自动跳转页面该如何处理(代理IP池) … … 这些内容在后续章节中再和大家分享,下期再见啦

知乎:南浔Pyer
CSDN:南浔Pyer
个人网站:DL小站
GitHub:LeoWang91
    以上就是本篇文章【Eastmoney-Spyder:股吧网页数据抓取分析(一)】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/7136.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机开不开机如何解决,苹果手机开不开机是咋回事苹果手机如何开机「苹果手机开不开机如何解决,苹果手机开不开机是咋回事」
苹果手机开不开机怎么办苹果手机开不了机这种情况,还有可能是手机处于死机状态,也可以先尝试一下同时按住开机键开机键+HOME键
这么多年过去了,米家为啥还不能实现离线操作?小米手机闹钟在哪里设置「这么多年过去了,米家为啥还不能实现离线操作?」
这么多年过去了,米家为啥还不能实现离线操作?“ 小爱同学,打开空调 ”“ 小爱同学!,打开空调 ”“ 小爱同学???? ”这么
手机上的这些隐形参数 厂商可能不会告诉你隐形手机「手机上的这些隐形参数 厂商可能不会告诉你」
在文章正式开始之前,先问大家伙儿一个问题:在挑手机的时候,不知道各位主要会看哪些参数?像是芯片、屏幕、影像、内存、存储、
山西一男子高速上边开车边玩手机游戏被处罚开车玩手机「山西一男子高速上边开车边玩手机游戏被处罚」
  这名司机心真大!山西一男子高速上边开车边玩手机游戏被处罚   新华社太原11月26日电(记者王飞航)究竟是命重要,还是玩游
米忽悠派对最新版本 v1.0手机版派对手机「米忽悠派对最新版本 v1.0手机版」
米忽悠派对是一款以米哈游的游戏ip打造的全新派对游戏,在游戏中能够看到许多米哈游的不同游戏集合在一个游戏中,游戏玩法十分简
油电同智 全球同行,奇瑞汽车智能化战略发布会盛大开幕
3月18日,智能化战略发布会在安徽芜湖顺利召开。活动聚焦“油电同智 全球同行”,正式发布奇瑞集团智能化战略规划,并集中展示猎
投影仪如何通过手机投屏-实用教程手机怎么投屏到投影仪「投影仪如何通过手机投屏-实用教程」
第二步:开启手机投屏功能打开手机上的设置或者控制中心(不同手机可能位置不同),找到“投屏”或者“无线投屏”这样的选项并点
才发现手机蓝牙竟然有这么神奇的功能,你们都知道手机蓝牙的哪些作用呢?手机蓝牙有什么作用「才发现手机蓝牙竟然有这么神奇的功能,你们都知道手机蓝牙的哪些作用呢?」
提到手机蓝牙,大家能想到的它的功能是什么呢?不少人可能对手机蓝牙的作用还停留在以前,两个手机配对之后可以用来传输文件,这
全球最火的十大射击游戏推荐 好玩的射击游戏前十2023手机最真实的射击游戏「全球最火的十大射击游戏推荐 好玩的射击游戏前十2023」
现在手机上的射击游戏种类是很丰富的,不同题材的射击游戏给大家提供了不同的体验,射击游戏里的众多枪械可谓开拓了大家的眼界,
苹果发布iPhone8和iPhoneX 后者系第一代价格十倍苹果x手机多少钱「苹果发布iPhone8和iPhoneX 后者系第一代价格十倍」
  在苹果手机面世10周年之际,苹果公司12日发布iPhone 8和iPhone X等最新产品,以此向已故联合创始人史蒂夫?乔布斯致敬。