Python爬虫实战:分析Ajax请求-抓取今日头条信息
小标 2018-07-17 来源 : 阅读 1763 评论 0

摘要:本文主要向大家介绍了Python爬虫实战:分析Ajax请求-抓取今日头条信息,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助。

本文主要向大家介绍了Python爬虫实战:分析Ajax请求-抓取今日头条信息,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助。

学习目的:

解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用

正式步骤

Step1:流程分析

 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果;

抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息;

下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB;

开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率。

Step2:实例分析

1. 打开今日头条搜索页,搜索“中超”,查看页面的请求方法为:GET

2. 创建一个Python文件:spider_ajax.py

3.网站url信息获取

4. 打印抓取的文章超链接和抓取的html内容

# -*-  coding:utf-8 -*-import jsonfrom urllib.parse import urlencodefrom requests.exceptions import RequestExceptionimport requestsdef get_page_html(offset,keyword):
   data = {        'offset':offset,        'format':'json',        'keyword':keyword,        'autoload':'true',        'count':'20',        'cur_tab':1
   }#   urlencode把字典对象自动转化为url参数,#   快速导入,请选中以后,按alt+enter
   url = 'https://www.toutiao.com/search_content/?' + urlencode(data)    try:
       response = requests.get(url)        if response.status_code == 200:            return response.text        return None
   except RequestException:
       print('请求索引页失败')        return Nonedef parse_page_index(html):#因为html打印出来是json字符串格式,json.loads作用是将已编码的 JSON 字符串解码为 Python 对象# json.dumps作用是将 Python 对象编码成 JSON 字符串#参考//www.runoob.com/python/python-json.html
   data = json.loads(html)    if data and 'data' in data.keys():        for item in data.get('data'):            yield item.get('article_url')def main():
   html = get_page_html(0,'中超')#打印抓取的文章详细内容的url
   for url in parse_page_index(html):
       print(url)#打印获取页面内容
   print(html)if __name__ == '__main__':
   main()

后面的内容因为爬虫被封,很多信息获取不到,暂时不会,以后再补全这节内容

本文由职坐标整理并发布,了解更多内容,请关注职坐标编程语言Python频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程