相关动态
python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)
2024-11-01 23:24

今日头条

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

我们以搜索’妹子’为例

那 么 我 们 在 右 上 角 的 搜 索 框 搜 索 妹 子 , 出 来 了 一 系 列 文 章 那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章

检 查 网 页 的 源 代 码 , 发 现 只 是 一 个 简 短 的 框 架 检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架

于 是 猜 测 这 是 用 于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看

果 不 其 然 , 就 在 这 里 , 现 在 我 们 就 是 构 造 这 些 J S 加 载 请 求 果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求

打 开 这 个 数 据 包 的 h e a d e r s 部 分 查 看 打开这个数据包的headers部分查看打开这个数据包的headers部分查看

显 然 其 中 的 o f f s e t 是 决 定 翻 页 的 , 每 加 20 翻 一 页 显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页

t i m e s t a m p 是 什 么 呢 ? timestamp是什么呢?timestamp是什么呢?

这 个 可 以 直 接 用 t i m e . t i m e ( ) 取 得 , 具 体 看 代 码 中 这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中

接 下 来 就 是 请 求 , 转 化 为 字 典 , 取 出 需 要 的 内 容 接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容

#-*-codeing = utf-8 -*-

#@Time : 2020/6/28 13:17

#@Author : issue小菜鸡

#@File : 今日头条爬取.py

#@Software: PyCharm

import time

import json

import requests

from urllib.parse import urlencode

def get_data(search_name,page):

data = { #构造请求的data

'aid':'24',

'app_name':'web_search',

'offset':page,

'format':'json',

'keyword':search_name,

'autoload':'true',

'count':'20',

'en_qc':'1',

'cur_tab': '1',

'from': 'search_tab',

'pd':'synthesis',

'timestamp': int(time.time()),

'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'

url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)

header={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',

'x-requested-with':'XMLHttpRequest'

res = requests.get(url=url,headers=header)

return res

def find_content(search_name,page):

dic = get_data(search_name,page).json() #转化为json字典

data = dic['data']

if data is not None: #不为空才开始

for item in data:

if 'title' in item: #标题

print(item['title'])

else:

print('没有找到啊啊啊啊啊')

if 'article_url' in item: #文章url

print(item['article_url'])

page = 0

for i in range(0,9):

find_content('妹子',page)

    以上就是本篇文章【python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/32.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机怎么恢复备份?详细攻略为你整理好了!云备份怎么恢复到手机「苹果手机怎么恢复备份?详细攻略为你整理好了!」
随着智能手机和互联网的普及,手机中存储的个人信息、照片、视频、聊天记录等数据会变得越来越多。一旦手机丢失、损坏或系统出现
李亚鹏正式息影 投资50亿丽江当老板金立手机老板「李亚鹏正式息影 投资50亿丽江当老板」
  华西都市报4月28日讯 昨日,李亚鹏打造的“云南省文化产业试验园”项目北京签约“我每年只选一部戏来拍,这已经严格遵循了10
怎样采用比特币挖矿?手机挖矿「怎样采用比特币挖矿?」
好吧,废话不多说了,其实比特币 - Bitcoin 出现时间已经很久了,不过对于新手来说,还是需要讲解一下的。关于比特币。FORECE 在
定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?苹果手机发布会「定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?」
又是九月,丰收的季节,今年的苹果又该熟了.......正如此前传闻那样,今晚苹果正式向外界发送了邀请函,宣布将于当地时间 9月7日
苹果手机微信闪退怎么回事苹果手机闪退是什么原因「苹果手机微信闪退怎么回事」
  品牌型号:iPhone12  系统版本:IOS14  苹果手机如果出现微信闪退的状况,首先我们得寻找原因,接下来小编就带着你们来
ZArchiver手机解压缩工具chm文件手机怎么打开「ZArchiver手机解压缩工具」
ZArchiver是一款功能强大的解压缩工具APP,可用于解压文件或压缩文件,软件支持多种文件格式的压缩和解压缩,包括ZIP、RAR、7Z、
【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命什么手机寿命最长「【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命」
一部手机最长能用几年?主要取决于以下这几个重要因素,才能决定手机的使用寿命。在当今社会,智能手机已经成为我们生活中不可或
iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案机械手机「iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案」
  文/晓光 于泽 瑞豪 视频/贾乾 图/苏航  从去年成立至今,iQOO这品牌发布了不到十款产品,并成功在互联网渠道占据了自己的
2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟华为手机模拟器「2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟」
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.ne
ADB驱动源码深度解析,从原理探究到实践应用android手机驱动「ADB驱动源码深度解析,从原理探究到实践应用」
摘要:,,本文深入解析ADB(Android Debug Bridge)驱动源码,从原理到实践全面阐述。文章首先介绍了ADB的基本原理和主要功能,