主页 > 知识库 > python简单爬虫--get方式详解

python简单爬虫--get方式详解

热门标签:获客智能电销机器人 不错的400电话办理 徐州天音防封电销卡 南昌办理400电话怎么安装 电话机器人适用业务 郑州智能外呼系统运营商 佛山防封外呼系统收费 哈尔滨外呼系统代理商 湛江电销防封卡

简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。

环境准备

安装第三方库

pip install requests
pip install bs4
pip install lxml

进行爬虫

1.获取网页数据。

import requests
from bs4 import BeautifulSoup
url = "https://cn.bing.com/search?q=爬虫CSDNqs=nform=QBREsp=-1pq=爬虫csdnsc=5-6sk=cvid=0B13B88D8F444A0182A4A6C36E463179/"
response = requests.get(self.url)

2.解析网页数据

soup = BeautifulSoup(response.text, 'lxml')

3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式,后查看目标在html中的位置,右击选择“复制selector”,见下图。

key = "#b_results > li > div.b_title > h2 > a"
soup.select(key)

4.清洗数据

result = {}
for i, item in enumerate(data):
     result.update({
         f'title_{i}': item.get_text(),
         f'url_{i}': item.get('href')
     })
 print(result)

参考

链接:https://www.jb51.net/article/152560.htm

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

您可能感兴趣的文章:
  • Python大数据之网络爬虫的post请求、get请求区别实例分析
  • python2与python3爬虫中get与post对比解析
  • python爬虫 基于requests模块的get请求实现详解
  • python爬虫 基于requests模块发起ajax的get请求实现解析
  • python爬虫中get和post方法介绍以及cookie作用

标签:安康 吕梁 吉安 怀化 芜湖 广西 绍兴 兰州

巨人网络通讯声明:本文标题《python简单爬虫--get方式详解》,本文关键词  python,简单,爬虫,--get,方式,;如发现本文内容存在版权问题,烦请提供相关信息告之我们,我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
  • 相关文章
  • 下面列出与本文章《python简单爬虫--get方式详解》相关的同类信息!
  • 本页收集关于python简单爬虫--get方式详解的相关信息资讯供网民参考!
  • 推荐文章