Python爬虫技术-巨人网络通讯

主页 > 知识库 > Python爬虫技术

Python爬虫技术

一、Python爬虫简单介绍

1、抓取网页本身的接口

相比与其他静态的编程语言，如java，c#，C++，python抓取网页的接口更简洁；相比其他动态脚本语言，如Perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟游览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agen的行为构造合适的请求，譬如模拟用户登录、模拟session/cookie的存蓄和设置。在Python里都有非常优秀的第三方包帮你搞定，如Request，mechanize。

2、网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。Python的beautiulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。
其实以上功能很多的语言都能做，但是用Python能够干得最快，最干净。

Life is short, you need python.

PS：python2.x和python3.x有很大不同，本文先讨论python3.x的爬虫实现方法。

二、爬虫架构

架构组成
URL管理器：管理待爬的url集合好已爬取的url集合，传送待爬的url给网页下载器。
网页下载器（urllib）：爬取url对应的网页你，存蓄成字符串，传送给网页解析器。
网页解析器（BeautifulSoap）：解析出有价值的数据，存蓄下来，同时补充url到URL管理器。

三、URL管理器

1、基本功能

添加新的url到爬取url集合中。
判断待添加的url是否在容器中（包括待爬取url集合和已爬取的url集合）。
获取待爬取的url。
判断是否有待爬取的url。
将爬取完成的url从待爬取的url集合移动到已爬取url集合。

2、存蓄方式

内存（python内存）
待爬取url集合：set()
已爬取url集合：set()
关系数据库（mysql）
urls（url，is_crawled）
缓存（redis）
待爬取url集合：set
已爬取url集合：set
大型互联网公司，由于缓存数据库的高性能，一般把url存蓄在缓存数据库中。小型公司，一般把url存蓄在内存中，如果想要永存存蓄，则存蓄到关系数据库中。

3、网页下载器（urllib）

将url对应网页下载到本地，存蓄成一个文件或字符串。

基本方法
新建baidu.py，内容如下：

import urllib.request
 
response = urllib.request.urlopen('http://www.baidu.com')
buff = response.read()
html = buff.decode("utf8")
print(html)
命令行中执行python baidu.py，则可以打印出获取到的网页。

构造Request：

上面的代码，可以修改为：

import urllib.request
 
request = urllib.request.Request('http://www.baidu.com')
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

携带参数：
新建baidu2.py，内容如下：

import urllib.request
import urllib.parse
 
url = 'http://www.baidu.com'
values = {'name': 'voidking','language': 'Python'}
data = urllib.parse.urlencode(values).encode(encoding='utf-8',errors='ignore')
headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0' }
request = urllib.request.Request(url=url, data=data,headers=headers,method='GET')
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

使用Fiddler监听数据:

我们想要查看一下，我们的请求是否真的携带了参数，所以需要使用fiddler。
打开fiddler之后，却意外发现，上面的代码会报错504，无论是baidu.py还是baidu2.py。
虽然python有报错但是在fiddler中，我们可以看到请求信息，确实携带了参数。
经过寻找资料，发现python以前版本的Request都不支持代理环境下访问https。但是，最近的版本应该支持了才对。那么，最简单的办法，就是换一个使用http协议的url来爬取，比如，把http://www.baidn.com改成http://www.baidu.com/，请求成功了！神奇！！！

添加处理器：

import urllib.request
import http.cookiejar
 
# 创建cookie容器
cj = http.cookiejar.CookieJar()
# 创建opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 给urllib.request安装opener
urllib.request.install_opener(opener)
 
# 请求
request = urllib.request.Request('http://www.baidu.com/')
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)
print(cj)

四、网页解析器（BeautifulSoup）

从网页中提取有价值的数据和新的url列表。

1、解析器选择

为了实现解析器，可以选择使用正则表达式、html.parser、BeautifulSoup、lxml等，这里我们选择BeautfulSoup。

其中，正则表达式基于模糊匹配，而另外三种则是基于DOM结构化解析。

2、BeautifulSoup

安装测试
（1）安装，在命令行下执行pip install beautifulsoup4。

（2）测试。

import bs4
print(bs4)

3、使用说明

创建BeautifulSoup对象:

import bs4
from bs4 import BeautifulSoup
 
# 根据html网页字符串创建BeautifulSoup对象
html_doc = """
html>head>title>The Dormouse's story/title>/head>
body>
p class="title">b>The Dormouse's story/b>/p>
p class="story">Once upon a time there were three little sisters; and their names were
a href="//www.jb51.net/admin/index.asp" class="sister" id="link1">Elsie/a>,
a href="//www.jb51.net/admin/index.asp" class="sister" id="link2">Lacie/a> and
a href="//www.jb51.net/admin/index.asp" class="sister" id="link3">Tillie/a>;
and they lived at the bottom of a well./p>
p class="story">.../p>
"""
soup = BeautifulSoup(html_doc)
print(soup.prettify())

访问节点;

print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)
 
print(soup.p)
print(soup.p['class'])

指定tag、class或id:

print(soup.find_all('a'))
print(soup.find('a'))
print(soup.find(class_='title'))
print(soup.find(id="link3"))
print(soup.find('p',class_='title'))

从文档中找到所以a>标签的链接:

for link in soup.find_all('a'):
    print(link.get('href'))

出现了警告，根据提示，。我们在创建BeautifulSoup对象时，指定解析器即可。

soup = BeautifulSoup(html_doc,'html.parser')

从文档中获取所以文字内容:

print(soup.get_text())

正则匹配:

link_node = soup.find('a',href=re.compile(r"til"))
print(link_node)

到此这篇关于Python爬虫技术的文章就介绍到这了,更多相关Python爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

关于python爬虫应用urllib库作用分析
python爬虫Scrapy框架:媒体管道原理学习分析
python爬虫Mitmproxy安装使用学习笔记
Python爬虫和反爬技术过程详解
python爬虫之Appium爬取手机App数据及模拟用户手势
爬虫Python验证码识别入门
Python爬虫爬取商品失败处理方法
Python获取江苏疫情实时数据及爬虫分析
Python爬虫之Scrapy环境搭建案例教程
Python爬虫中urllib3与urllib的区别是什么
教你如何利用python3爬虫爬取漫画岛-非人哉漫画
Python爬虫分析汇总

标签：宁夏盘锦南平大同普洱漯河海南林芝

巨人网络通讯声明：本文标题《Python爬虫技术》，本文关键词 Python,爬虫,技术,Python,爬虫,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Python爬虫技术》相关的同类信息！

Python爬虫技术

目录一、Python爬虫简单介绍 1、抓取网页本身的接口 2、网页抓取后的处理二、爬虫架构三、URL管理器 1、基本功能 2、存蓄方式 3、网页下载器（urllib）四、网页解析器（BeautifulSoup）...

10-18

运营商应当欢迎MVNO加入，但市场还有利可图吗

工信部一纸《移动通信转售业务试点方案》的通知，将移动虚拟网络运营商（简称MVNO）这个角色推到聚光灯下。在海外很多...

01-16

文思海辉符山服务外包观察：印度外包重镇金奈洪水中我们的同理心

从今年十月开始，印度东南海岸地区遭受了百年一遇的强降雨，随之而来的洪水淹没了泰米尔纳德邦首府金奈。说淹没一点儿...

10-22

网络电话外呼系统带数据（互联网化外呼管理系统）

本文目录一览： 1、哪家的外呼系统好用？ 2、什么是网络电话外呼系统？ 3、网络电话外呼系统哪个好？哪家的外呼系统好...

11-26

怎样在高德地图上留店名？高德地图留店名

怎么才能在高德地图上留上店名？增地点您可以在地图上找长按此位置2秒直至出现蓝色气泡内，然后点击右下角新增地容点...

11-26

办理400电话的收费标准400电话申请容易吗？有什么优惠套餐？

现在市场上使用的400电话很火爆，企业之所以会放心办理400电话，是因为收费很合理，在使用过程中也很方便，大家可以看看...

01-12

扁桃首播80万不雅观众围不雅观籽岷奇怪君等一众MC大佬助阵

若说当前《我的世界》最火主播是谁，莫非狂拽酷炫嘴炸天的扁桃是也， 9 亿多的全平台视频不雅观看。 9 月 2 日在触手直播...

10-16

赤峰市酒店地图，赤峰市金方大酒店地图

酒店怎么上高德地图？和高德地图联系，有一些要赞助费的，或者使用纠错功能自己注册，然后申请标注，填写资料，上传...

11-27

苏州电销机器人招代理吗（苏州机器人代理商）

本文目录一览： 1、有没有哪种电话机器人能够做招商项意图啊？需求联络的合作方太多了，想要能够智能高效和客户交流的...

11-28

400电话作用大吗400电话怎么收费的？400电话套餐推荐

企业将高度重视宣传内容，高度重视与消费者的沟通，这也是为了提高营销效率，提升外部形象。正因为如此，许多企业将...

01-13

抖音代运营有哪些最好的抖音流量来源？

抖音的到来，改变了咱们对短视频的认识，跟着抖音的不断发展，抖音现已进入了千家万户，成为了咱们日子中不可缺失的一...

03-01

佛山微信代运营怎么增加粉丝量？

03-01

“一带一路”对专利、商标申请人敞开“胸怀”

“亚洲之星农业产业合作区欢迎您！”在一天之内转机两次、历经七八个小时、飞越三个国家后，走出比什凯克玛纳斯国际机...

10-23

电话机器人对公司有用吗（电话机器人公司哪家好）

本文目录一览：1、电销机器人真的有用吗?2、电话机器人使用效果怎么样3、用智能AI电话机器人效果好吗?4、电话机器人有什...

06-20

潍坊市好用防封电话卡便宜

那么，分享通信面临当前困境，究竟是运营好用防封电话卡便宜状况不景气，还是因为之争所导致的呢？先从运营角度来看，...

03-01

搬运机器人如何实现更快的搬运物料

随着科技的快速发展，搬运机器人越来越受到大家的欢迎，那么搬运机器人怎么搬运物料更快呢？一、物料单位容量在自动搬...

10-30

南通市7个县级呼叫中心平台服务万余名老人

目前，南通市已建成7个县级呼叫平台，为全市1万多名独居、空巢老年人提供相关服务。日前，市政协主席王德忠率市政协主...

10-19

电销机器人怎么销售（电销机器人销售话术）

本篇文章给大家谈谈电销机器人怎么销售，以及电销机器人销售话术对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

02-24

深圳电话机器人电话机器人

4.电话作为联系客户最重要的方式，每天需要联系大量的客户。如果采用人工客服，必然需要大量的人工成本和设备成本，不...

10-24

云南电话机器人效果怎么样

有意通过呼叫任务筛选的客户可以进行手动操作，也可以在事后由销售人员进行跟踪访问。我们可以根据呼叫场景进行不同...

10-31

了解400电话就上信通网赢www.trust400.com

【了解400电话就上企号卡网】企号卡网网站(www.qihaoka.com)上面还可以找客服来解答对于400不懂的事情。所以说如果你对于400电...

11-07

pytorch显存一直变大的解决方案

在代码中添加以下两行可以解决： torch.backends.cudnn.enabled = Truetorch.backends.cudnn.benchmark = True 补充：pytorch训练过程显存一直增加...

10-18

纽约岛民为新竞技场申请“ THE BANK”商标

纽约岛民提出了三项商标申请，这些商标与该团队正在建设的新竞技场有关。一个应用程序是短语“ THE BANK”，它似乎是竞...

10-23

四川电话系统有哪些

电销外呼系统批量自动外呼系统原理：电话批量自动外呼系统能够解决以下问题：把海量号码数据导入系统，由程序自动外呼...

10-25

高精度高德地图标注公司地址让无人驾驶汽车“认路”

你出门都不认路，怎么写地图的稿子?当记者动笔时，身旁的友人这样问道。未来的无人驾驶汽车也面临同样的问题。虽然作...

04-14

美团订单出现支付故障官方称已陆续恢复

腾讯科技讯(相欣) 12 月 7 日，今日午间美团因技术原因导致平台部分订单出现支付故障，用户支付成功后显示页面出现延迟，...

10-15

智能电销机器人开启人工智能共生时代。

深圳市数心科技有限公司历经多年的技术积累和研发实践，融合互联网、云计算及人工智能、通信、大数据等技术，研发推出...

10-24

巨人科技—巨人科技的新名字

00电话作为一个专业的标志，已经被各种大型企业接受。许多客户使用电话的时候，都会更容易倾向相信这样的号码。也许这...

05-15

易电销app高频不封号系统官方

易电销app 高频不封号系统官方适用于教育，房产，代理记账，装修，增值应有尽有，029，外显手机号等多种线路电话外呼系...

11-15

电销卡如何养卡（电销卡如何使用）

本文目录一览：1、电销卡是否真的不封号?卡总被停怎么办回拨真的不封吗?电销卡多少钱靠谱...2、电话销售,卡总是被停,怎么...

07-10

MySQL之导出整个及单个表数据的操作

导出单个表 mysqldump -u user -p dbname tablename db.sql 导入单个表 mysqldrop tablename; mysql -u user -p dbname db.sql 导出整个表 mysqldump --opt ...

10-18

联通物联卡虚拟运营商你了解吗？

你知道虚拟运营商吗?运营商你一定知道，国内来说就是三大运营商中国移动、联通、电信。那么虚拟运营商是什么呢?其实虚...

10-13

怎么技巧性的通过搜索引擎来获取流量?

今日与咱们共享对于在SEO的操作中哪些会被搜索引擎认为是做弊的手法，请咱们要理解小编么的主题不是要教咱们怎么去做弊...

10-19

esim物联网卡与普通esim卡的那些不解之谜

随着物联网技术的高速发展，现在国内越来越多的企业都在慢慢接受和使用它。不过随着物联网卡的大量使用，出现了各种各...

11-07

杭州有哪些好的网站代运营公司？

随着互联网技术的发展趋势，越来越多的传统公司刚刚开始做网络运营。但是对于大多数中小企业来说，自己组件的互联网销...

03-31

莱芜自动电销机器人公司（销售电销机器人）

今天给各位分享莱芜自动电销机器人公司的知识，其中也会对销售电销机器人进行解释，如果能碰巧解决你现在面临的问题，...

05-16

温州移动电话营销线路服务商,电销系统-深入探讨

温州移动电话营销线路服务商,电销系统提升企业经济效益。电销效率提升的同时，企业无需再像以前一样雇佣太多电销人员...

12-17

售后软件

售后服务的质量直接影响到客户对品牌和产品的满意度，忠诚度。二次销售和口碑推荐，其实是对收入的助长。所以我们更应...

10-25

安宁移动外呼系统查询电话（中国移动安宁分公

本文目录一览：1、10085是什么？2、10085是什么电话？3、10085是什么号码4、中国移动的人工服务电话号码是多少5、10085是什么...

11-29

餐饮酒店类企业彩铃内容61

【餐饮酒店213】完美品质，追求卓越！南昌市达乐宾馆酒店用品有限公司欢迎您的来电，我们将专业订做台布、口布、椅套、...

11-27

企业电话机器人功能（电话机器人厂商）

今天给各位分享企业电话机器人功能的知识，其中也会对电话机器人厂商进行解释，如果能碰巧解决你现在面临的问题，别忘...

05-17

400电话的优点和缺点400电话的特点有哪些

400本质上是一个智能虚拟号码，通过呼叫转移转移到企业指定或手机接收400是800电话业务升级版本，是基于智能网络语音增值...

01-13

苏州包月电销外呼线路开发-号外！

苏州包月电销外呼线路开发导出、修改等数据管理功能。电销机器人在智能客服领域应用，还会受到通信传输的影响。在电话...

01-16

互联时代下中译语通引领语音行业激流勇进

如今，移动互联网给传统语音行业带来了不小的冲击。风云变化中，如何处变不惊，奋力开辟新天地，这是许多行业企业都在...

10-21

品牌保护：加强法律意识

我国许多拥有传统名牌商标的企业，由于缺乏商标法律意识，给国内外一些“不义之徒”抢先注册，给他们带来巨大的损失。...

10-23

如何办理抗封的话机通讯助手呢

之前我有一个朋友是做那种餐饮加盟的，就是给客户打电话邀约客户过来公司考察，然后让客户来加盟他们公司的项目，但是...

11-23

鹤壁正规外呼系统代理商（鹤壁呼叫产业园干嘛的）

本篇文章给大家谈谈鹤壁正规外呼系统代理商，以及鹤壁呼叫产业园干嘛的对应的知识点，希望对各位有所帮助，不要忘了收...

05-17

办理400电话哪里办理流程（办理400电话需要什么手续）

办理400电话哪里办理流程（办理400电话需要什么手续）想要拥有一条专属于自己企业的400电话，不仅可以提升企业形象，还...

08-14

机器人语音对话app云呼ai_电话机器人

【机器人语音对话app】云呼：一个电话机器人的外呼次数约为1000/天，根据接话率和话术内容而变动【机器人语音对话app】...

10-31

特步申请“特不服”商标商标分类为服装鞋帽

来源：界面新闻近日，特步（中国）有限公司新增商标申请信息，商标名称为“特不服”，注册号为51006936，商标分类为25...

10-23

北京财税电话营销线路办理商家,电销机器人-终于明白

北京财税电话营销线路办理商家,电销机器人在工作质量方面还能达到更好的标准，因为电销机器人具有更为稳颜色定的系统...

12-17

Python爬虫技术

10-18

本页收集关于Python爬虫技术的相关信息资讯供网民参考！

推荐文章

上一篇：Python中的异常类型及处理方式示例详解

下一篇：python中bottle使用实例代码

一起分享吧