推广 热搜: 行业  设备    系统  参数  经纪    教师  机械  中国 

java获取抖音粉丝 爬取抖音粉丝

   日期:2024-11-01     作者:caijiyuan    xhstdz   评论:0    移动:http://sjzytwl.xhstdz.com/mobile/news/101.html
核心提示:什么?你问我国庆七天假期干了什么?说出来你可能不信,我爬取了cxk坤坤的抖音粉丝数据,我也不知道我为什么这么无聊。本文主要

什么?你问我国庆七天假期干了什么?说出来你可能不信,我爬取了cxk坤坤的抖音粉丝数据,我也不知道我为什么这么无聊。

java获取抖音粉丝 爬取抖音粉丝

本文主要记录如何使用appium自动化工具实现抖音App模拟滑动,然后分析数据得到粉丝用户信息。


 

  • fiddler
  • appium
  • mitmproxy(mitmdump)
  • python3.6
  • 自带root的安卓虚拟机
  • Android SDK

安卓模拟器需要安装xposed框架并安装JustTrustMe组件,因为抖音会有ssl验证,会导致我们在将数据发送到我们的抓包工具的时候无法联网,所以需要安装这个组件来关闭ssl验证

mitmproxy、AndroidSDK需要加入环境变量,这步就不再叙述


1)fiddler 主要设置如下

端口设置可以随意更改,本文设置为8889

电脑主机打开命令行 输入ipconfig查看本机IP

设置模拟器的代理

接下来打开浏览器,输入 ip:prot 如本机为 117.90.211.134:8889 下载安装fiddler证书  如下步骤

接下来我们就可以使用fiddler正确的抓取手机数据包了

2)mitmproxy证书

我们在Windows系统上常用的是mitmproxy的mitmdump 打开cmd输入mitmdump -p 端口号 就可以启动服务

为了方便我们将端口号也设置为8889 但是开启这个的时候需要先关闭fiddler 不然会端口冲突,然后打开模拟器的浏览器看看能否接受数据

我们发现出问题了,发现现在直接提示空的响应而不是证书的问题,看到mitmdump报的错误是 killed by block_global 是什么原因呢?

这是mitmdump的自我保护措施,它防止全球网络的连接,意思就是如果是本地局域网它不会阻拦,那该怎么办呢?

有两种解决办法:第一种,将模拟器的网络连接设置为桥接模式,这样就不会出现问题;

第二种办法是启动的时候加入参数 mitmdump -p 8889 --set block_global=false 如下图

 

接下来 安装mitmproxy的证书  浏览器输入网址 mitm.it 然后安装证书

 

现在再打开网页就不会出现证书的提醒了

这时候我们需要用的主要两个抓包工具的证书就安装完成了,需要注意的是我们每次测试都可能需要重新安装证书,因为我们的主机IP可能会变


 

首先呢我们先确认模拟器中的xposed框架的JustTrustMe组件是否开启 不然我们抖音App不能正常访问网络

注意以下步骤只能在网络桥接模式下使用(或者使用真机与电脑在同一个网络) 否则fiddler无法抓取到所有的包

首先使用fiddler分析,打开fiddler 并打开抖音进行操作  本项目是爬取cxk坤坤的粉丝数据,所以我们先进入他的抖音主页点进粉丝列表

粉丝好多,我们接下来向下滑动,看看当向下滑动刷新出更多粉丝的时候 fiddler会抓取到什么数据

会发现每次向下滑动的时候都会有一个含有 aweme/v1/user/follower/list/ 的网址,我们怀疑这就是粉丝数据的接口 我们把这个网址返回来的数据放入 json.cn 看看

还真的就是粉丝数据,会发现每次滑动更新的是二十个粉丝,所以我们就找对了方向,下面我们来分析这个请求

我们会发现这个请求的url带有很多很多的参数,没错,这是抖音自身的加密方法,要破解这个可得好一会了,所以我们无法使用requests直接构造请求来获得数据了,那我们该如何获取数据呢?

没错就是使用mitmdump,mitmdump有个最大的好处就是可以与python文件交互,我们可以直接使用python写好命令,使用mitmdump抓包,我们手动的滑动就可以解析出数据了

编写douyin_mitmdump.py文件 代码如下:

现在打开cmd并切换到项目目录下 执行命令 mitmdump -p 8889 -s douyin_mitmdump.py

接下来手动滑动界面看看会不会解析数据

好的 现在我们已经成功的分析出来了粉丝数据,但是我们总不能一直鼠标滑动吧?所以我们现在需要使用Appium进行自动化测试模拟滑动


 

 Appium是一个开源测试自动化框架,可用于原生,混合和移动Web应用程序测试。 它使用WebDriver协议驱动iOS,Android和Windows应用程序。

比如本文我们就使用appium来实现从点开程序到模拟滑动的全部操作。

首先我们需要在电脑上安装Appium

这个相当于appium服务端,我们在执行自动化测试的时候需要先在电脑上打开服务端,然后我们使用程序连接虚拟机或真机执行脚本进行自动化测试 点击start server打开服务端 

 

 

 

我们首先使用appium 自带的测试程序来试一下如何操作 点击右上角的放大镜符号

进入配置选项界面 开始填写选项信息

下面我来解释每个参数都是如何得到的

1)platformName  这是平台名称 我们填写 Andriod 相信不用过多解释

2)platformVersion 这是问平台版本信息,根据各个手机不同自主填写,本文使用的是 Andriod4.4.2

3)deviceName 这个是设备的名称,我们如何获取呢?

  这个时候就用到了我们AndroidSDK中的adb工具了 adb是用来连接电脑与手机的工具 我们把手机进入开发者选项并打开允许USB调试,然后打开命令行输入命令 adb devices看看有没有输出

  

  返回的127.0.0.1:52001就是设备名称 这个是模拟器的名称,使用真机会不同 (如果没有返回就关闭开发者模式重新打开USB调试多试几次)

4)appPackage、appActivity这俩个参数非常重要,它指定了我们自动化测试的app,这两个参数获取有点麻烦,下面详解如何获取

  首先手机打开App,本文就是抖音了,然后电脑命令行输入 adb shell 进入交互界面 然后输入命令 dumpsys activity | grep mFocusedActivity 

  

 

 

   第一个就是包名,第二个就是activity名 我们记下来一会编写进去(activity名称前要跟着包名)

  即 包名com.ss.android.ugc.aweme   activity名com.ss.android.ugc.aweme.main.MainActivity

5)noReset unicodekeyboard resetkeyboard解释会在一会的程序中

然后点击右下方保存配置信息并start session 如果点击start session发现手机自动打开抖音时,就说明我们的配置信息写对了,就可以开始使用了

这些配置信息一会要在我们的python脚本中使用,所以一定要填写正确


 

其实app自动化测试跟网页爬虫很相似,首先分析我们该怎么做 

点开抖音这一步已经不用我们去做 然后我们需要依次点左上角放大镜按钮、点击搜索框输入抖音号、点击搜索、点击用户、点击进入主页、点击粉丝、向上滑动

我们该如何定位按钮以及输入信息呢?

这又得使用AndroidSDK中的工具了 这次使用 AndroidSDK oolsmonitor.bat 中的monitor 可能有的小伙伴会问 为什么不使用可以查看xpath的魔改版的uiautomatorviewer呢?这是因为我在测试的时候发现现在抖音加入了某种时钟,我们都知道uiautomatorviewer无法获取动态页面的数据,而我发现monitor有的界面却可以,所以使用monitor,下面开始

首先用鼠标点击左边画蓝色圈的地方获取当前手机界面数据,然后鼠标点击我们需要的控件,之后右边出现的就是我们需要的信息,我们可以通过resource-id查找指定数据

现在先来编写douyin_appium.py文件测试下能否自动打开抖音并点击左上方放大镜按钮

 

运行之前首先要开启 appium 服务端,即start server

然后运行python文件

好的我们发现已经可以自动的点击放大镜按钮了,那么接下来只需要继续编写文件即可以完成自动化操作了 代码如下

效果如下gif图 可以实现从打开抖音到滑动的模拟操作


 

现在我们已经完成了appium的自动化模拟滑动,同时我们最开始又写了获取粉丝数据的mitmdump脚本,现在我们将这两个脚本结合起来就可以实现自动分析数据了

第一步运行mitmdump脚本 即到项目目录下运行命令

--set block_global=false如果手机和电脑在同一个局域网可以不加这条指令

然后将手机连接代理到我们主机 ,接着运行douyin_appium.py 现在就可以完成自动拉取粉丝数据了

效果如下图

我们还差什么呢?我们总不能在命令行看粉丝数据吧,所以我们需要把抓取到的数据放入本地mongo数据库,首先编写一个douyin_db.py 代码如下

然后我们在 douyin_mitmdump.py中引用这个刚刚编写的入库函数  douyin_mitmdump.py引用如下:

再次运行mitmdump命令与douyin_appium.py 现在就可以实现数据入库了,结果如下 

以上就是我们爬取到的cxk的粉丝数据,有小伙伴可能会说这种模拟滑动的很慢,可是有些app做了很高级别的加密,我们迫不得已只能用这种方式爬取,本次教程到此结束

 

本文地址:http://sjzytwl.xhstdz.com/news/101.html    物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号