推广 热搜： 行业设备金系统参数经纪杯教师机械中国

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

日期：2024-11-01 作者：caijiyuan xhstdz 评论：0 移动：http://mip.xhstdz.com/news/32.html

核心提示：今日头条我们以搜索’妹子’为例那么我们在右上角的搜索框搜索妹子 , 出来了一系列文章那么我们在右上角

今日头条

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

我们以搜索’妹子’为例

那么我们在右上角的搜索框搜索妹子 , 出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章

检查网页的源代码 , 发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架

于是猜测这是用于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看

果不其然 , 就在这里 , 现在我们就是构造这些 J S 加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求

打开这个数据包的 h e a d e r s 部分查看打开这个数据包的headers部分查看打开这个数据包的headers部分查看

显然其中的 o f f s e t 是决定翻页的 , 每加 20 翻一页显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页

t i m e s t a m p 是什么呢 ? timestamp是什么呢?timestamp是什么呢?

这个可以直接用 t i m e . t i m e ( ) 取得 , 具体看代码中这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中

接下来就是请求 , 转化为字典 , 取出需要的内容接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容

#-*-codeing = utf-8 -*-

#@Time : 2020/6/28 13:17

#@Author : issue小菜鸡

#@File : 今日头条爬取.py

#@Software: PyCharm

import time

import json

import requests

from urllib.parse import urlencode

def get_data(search_name,page):

data = { #构造请求的data

'aid':'24',

'app_name':'web_search',

'offset':page,

'format':'json',

'keyword':search_name,

'autoload':'true',

'count':'20',

'en_qc':'1',

'cur_tab': '1',

'from': 'search_tab',

'pd':'synthesis',

'timestamp': int(time.time()),

'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'

url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)

header={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',

'x-requested-with':'XMLHttpRequest'

res = requests.get(url=url,headers=header)

return res

def find_content(search_name,page):

dic = get_data(search_name,page).json() #转化为json字典

data = dic['data']

if data is not None: #不为空才开始

for item in data:

if 'title' in item: #标题

print(item['title'])

else:

print('没有找到啊啊啊啊啊')

if 'article_url' in item: #文章url

print(item['article_url'])

page = 0

for i in range(0,9):

find_content('妹子',page)

本文地址：http://sjzytwl.xhstdz.com/news/32.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新文章

点击排行

• 电信卡怎么异地销户销户流程是什么手机卡停机	• 梦金园去年净利同比降17.8%至1.89亿元海外增7
• 怎么找回qq密码qq密码忘记了手机号也换了怎么办	• 大屏智能千元机酷派5860价格欲破1100元酷派586
• 计步器怎么删掉手机自动计步器「计步器怎么删掉	• 三星今天上午宣布Note7爆炸原因已导致损失超10
• CBA八强出炉！下半区比上半区惨烈，9-12最终排	• 财知道｜爆卖上百万件！巴掌大的小东西，是年
• Z趋势：4G高速时代机会与挑战并存4g手机价格「	• 华为手机工程模式怎么进入(华为手机工程模式怎