Python爬虫实战之用selenium爬取某旅游网站-巨人网络通讯

主页 > 知识库 > Python爬虫实战之用selenium爬取某旅游网站

Python爬虫实战之用selenium爬取某旅游网站

一、selenium实战

这里我们只会用到很少的selenium语法，我这里就不补充别的用法了，以实战为目的

二、打开艺龙网

可以直接点击这里进入：艺龙网

这里是主页

三、精确目标

我们的目标是，鹤壁市，所以我们应该先点击搜索框，然后把北京删掉，替换成鹤壁市，那么怎么通过selenium实现呢？
打开pycharm，新建一个叫做艺龙网的py文件，先导包：

from selenium import webdriver 
import time   # 导包
driver = webdriver.Chrome()  # 创建一个selenium的对象
driver.get("http://www.elong.com/")  
time.sleep(1)  # 打开网站，并让它睡1s，避免渲染未完成就进行下一步操作
driver.maximize_window()  # 将浏览器最大化

怎么找到搜索框呢，有很多方法，xpath，css，JavaScript，jQuery，，，因为xpath简单，所以我们只使用xpath，因为这个网站也是可以用xpath的，具体步骤是：

1.F12，小箭头，点击搜索框

2.点击后，找到元素中的位置，右键，复制，复制xpath

3.进入pycharm中，在之前创建的py文件中添加如下代码

driver.find_element_by_xpath('//*[@id="domesticDiv"]/dl[1]/dd/input').clear()
# 将搜索框中的内容清理

4.在搜索框添加“鹤壁市”

driver.find_element_by_xpath('//*[@id="domesticDiv"]/dl[1]/dd/input').send_keys('鹤壁市')

5.点击搜索，进入下一页

time.sleep(1)
driver.find_element_by_xpath('//*[@id="hotel_sub_tabs"]/span[1]/b').click()  # 点击无关
time.sleep(1) # 避免渲染不及时导致报错
driver.find_element_by_xpath('//*[@id="domesticDiv"]/div/span[1]').click()  # 点击搜索

6.下一页
此时我们绝望的发现，这些操作都是没用的（对这个网站没用，但是至少我们学到了点知识？）她还是北京

所以我们只能这样做了
直接点击搜索，进入这个页面后再输入鹤壁（那干嘛不直接访问这个网页呢？为了我这该死的仪式感！！）这样做，再那样做，就行了

from selenium import webdriver
import time   # 导包
driver = webdriver.Chrome()  # 创建一个selenium的对象
driver.get("http://www.elong.com/")
time.sleep(1)  # 打开网站，并让它睡1s，避免渲染未完成就进行下一步操作
driver.maximize_window()  # 将浏览器最大化
driver.find_element_by_xpath('//*[@id="domesticDiv"]/div/span[1]').click()  # 点击搜索
driver.find_element_by_xpath('//*[@id="m_searchBox"]/div[1]/label/input').clear()  # 清空搜索框内容
driver.find_element_by_xpath('//*[@id="m_searchBox"]/div[1]/label/input').send_keys('鹤壁市')  # 在搜索框输入 鹤壁市
time.sleep(1)
driver.find_element_by_xpath('//*[@id="sugContent"]/ul/li[1]/div/div[1]/div[1]/span/b').click()  # 鹤壁市
time.sleep(1)
# 只是改变了顺序，并更换了xpath语法

然后就成功的定位到了鹤壁市

8.分析网页，找到详情页的url
我们可以这样做

我们发现，这个详情页每个的xpath都不相同，怎么做到把所有详情页都“照顾”得到呢？看来只能请出我们的requests来了，然后我们发现，这个只是一段URL，那怎么办？拼接咯！

9.通过查看响应，我们知道响应和元素是一样的，那么说明什么？我们可以通过xpath提取到我们的元素，直接请出我们的xpath选手。

from lxml import etree
import re
html_data = driver.page_source  # 将数据存入html_data
ht = ht_ht.xpath('//div[@class="to_detail"]/a/@data-link')  # 提取到url的后半段

10.拼接字符串形成新URL

点进去一个详情页查看URL，发现是这样的

研究发现，将?issugtrace=2删去也可以运行，而我们通过xpath取到的正是后面的 /31712004/，所以：

for ur in ht:
    new_ul = 'http://www.elong.com' + ur

11.取到详情页URL后，就要点进去，然后再分析网页，再提取数据，然后存数据，找xpath的我就先不说了，也不难。

head = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'
}
for ur in ht:
    new_ul = 'http://www.elong.com' + ur
    xiangqing_ht = requests.get(new_ul, headers=head).content.decode()  			
    # 使用requests
	time.sleep(1)  # 睡1s
    ht_data = etree.HTML(xiangqing_ht) # 转为可使用xpath的HTML格式
    tingche = ht_data.xpath('//*[@id="hotelContent"]/div/dl[4]/dd/text()')  # 停车位
            if tingche == []:
                tingche = '无停车位'
            name = ht_data.xpath('/html/body/div[3]/div/div[1]/div[1]/div/h1/text()')[0]  # 酒店名字
            phine_num = ht_data.xpath('//*[@id="hotelContent"]/div/dl[1]/dd/span/text()')  # 电话
            photo_li = ht_data.xpath('/html/body/div[3]/div/div[2]/div[1]/div[2]/ul[1]/li/img/@src')  # 照片
            weizhi = ht_data.xpath('//*[@id="map"]/div[1]/div[2]/div[1]/div/div[9]/div[2]/div/p[2]/text()')  # 位置
            miaoshu = ht_data.xpath('//*[@id="hotelContent"]/div/dl[1]/dd/ul/li[2]/div/p/span[1]/text()')

然后我们就拿到了数据，接下来，这些数据怎么保存呢？可以使用字典保存到json中。我就接着上面的写了

dic = {} # 使用字典进行json存储
ic[f"{name}"] = {}
dic[f"{name}"][f"{name}停车场"] = tingche
dic[f"{name}"][f"{name}电话"] = phine_num
dic[f"{name}"][f"{name}位置"] = weizhi
dic[f"{name}"][f"{name}描述"] = miaoshu
path = f"酒店数据//{name}"
if not os.path.exists(path):
    os.mkdir(path)
# 创建酒店文件夹
for num, photo in zip(range(len(photo_li)), photo_li):
    if num > 4:
        break
    else:
        with open(f'酒店数据//{name}//{name, num + 1}.jpg', 'wb') as f:
            f.write(requests.get(photo).content)  # 将照片存进本地
with open(f"酒店数据//{name}//酒店数据.json", 'w') as f:
      f.write(str(dic))  # 将json存入文件
dic = {}  # 将字典内的数据清楚，留待下一次循环使用

12.数据拿到之后，还没完，我们还要爬下一页，首先需要把主页滑倒最底部

for i in range(4):  # 0 1
     time.sleep(0.5)
     j = (i + 1) * 1000  # 1000 2000
     js_ = f'document.documentElement.scrollTop={j}'
     driver.execute_script(js_)
     time.sleep(5)

13.回到主页面，找到下一页的xpath，点击

driver.find_element_by_xpath('//*[@id="pageContainer"]/a[9]').click()

然后，我们就进入了下一页，然后下面就没有代码了，怎么办，怎么让代码一直运行将很多页的数据爬下来呢？有两种方法：

封装函数，并发爬取使用循环进行爬取

然后，就没有然后了…

四、成功

成功拿到数据

结语

希望大家能够通过实战了解各种语法的功能，而不是死记硬背各种语法，那样你很容易忘记，其实很多学习都可以通过这种方式来学习

到此这篇关于Python爬虫实战之用selenium爬取某旅游网站的文章就介绍到这了,更多相关Python selenium爬取网站内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？
Python爬虫入门案例之爬取二手房源数据
Python爬虫入门案例之回车桌面壁纸网美女图片采集
Python爬虫实战之批量下载快手平台视频数据
Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

标签：聊城六盘水南宁迪庆扬州牡丹江杨凌抚州

巨人网络通讯声明：本文标题《Python爬虫实战之用selenium爬取某旅游网站》，本文关键词 Python,爬虫,实战,之用,selenium,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Python爬虫实战之用selenium爬取某旅游网站》相关的同类信息！

Python爬虫实战之用selenium爬取某旅游网站

目录一、selenium实战二、打开艺龙网三、精确目标四、成功结语一、selenium实战这里我们只会用到很少的selenium语法，我这里就不补充别的用法了，以实战为目的二、打开艺龙网可...

10-18

vivoX30系列搭载的FuntouchOS10电销外呼程序会带来哪些不一样的体验？

感谢您的阅读！前两天去vivo的体验店，感受了下vivo X30这款手机系统，也确实觉得有些惊喜，在这款手机中，使用了全新的...

12-14

北京电销公司

1、什么是智能语音电话机器人？【北京电销公司】 2.可视化和数字化管理，所有的外呼名单全部做好分类，哪些接了哪些没...

10-24

南通外呼系统排名（南京外呼系统哪家公司做得

本文目录一览：1、智能电话外呼体系哪家的比较好用？2、外呼体系哪家好？3、电销外呼体系品牌排名，哪家好4、电销外呼...

11-29

江苏大数据外呼管理系统（互联网化外呼管理系统）

本篇文章给大家谈谈江苏大数据外呼管理系统，以及互联网化外呼管理系统对应的知识点，希望对各位有所帮助，不要忘了收...

05-16

电子地图-殡葬服务一目了然

本报讯记者周其俊）昨天，全国首张殡葬服务电子地图在市民政局官方网站亮相。市民只要轻轻点击上海殡葬网，然后点击...

04-13

南宁地铁电话机器人（南宁地铁报站语音）

本文目录一览：1、南宁什么时候有地铁2、南宁轨道交通1号线的铺轨3、南宁5号线地铁口哪里最热闹南宁什么时候有地铁年...

07-06

天津自动电销机器人系统（天津自动电销机器人系统有限公司）

今日给各位共享天津主动电销机器人体系的常识，其间也会对天津主动电销机器人体系有限公司进行解说，如果能可巧处理你...

11-07

上海通讯外呼系统资费（上海呼叫中心外包公司有哪些）

今天给各位分享上海通讯外呼系统资费的知识，其中也会对上海呼叫中心外包公司有哪些进行解释，如果能碰巧解决你现在面...

05-17

服务外包“新宠”难以快速成长

光明教育讯服务外包是以现代网络技术和高层次人才为支撑的新型知识产业，属于高端的现代服务业。随着我国产业转移的...

10-22

武威电话机器人厂家（电话机器人招聘）

本文目录一览：1、武威市火车站查询电话?2、有谁用过电销机器人?哪个公司的比较好?3、那么多电话机器人,我们怎么测试谁...

06-20

保定极信通信电销卡（极信通信手机卡办理）

本文目录一览：1、怎样使用电销电话卡不会被封?这些技巧需要掌握!2、电销卡可以在手机上注销吗3、电销卡为什么不容易被...

07-10

移动CRM正在改变业务管理方式

2014年绝对是中国的4G元年，也很可能开启移动办公系统应用的新纪元。在去年12月4日，工信部向中国联通、中国移动、中国电...

10-19

福建电销网络电话系统安装（福建电销网络电话系统安装要求）

本篇文章给大家谈谈福建电销网络电话系统安装，以及福建电销网络电话系统安装要求对应的知识点，希望对各位有所帮助，...

08-28

新都电话机器人公司有哪些（新都机械有限公司）

本文目录一览：1、电话销售机器人哪个好2、重庆有几家电话机器人3、电话机器人怎么样？电话销售机器人哪个好电话销售...

06-30

电信400电话业务，电信400号码怎么办理

电信400电话业务，电信400号码怎么办理400电话代理商为你解答。打开电脑浏览器，百度搜索【400办理】选择任意办理方，如...

07-20

惠州代理外呼系统（广东外呼公司）

今日给各位共享惠州署理外呼体系的常识，其间也会对广东外呼公司进行解说，如果能可巧处理你现在面对的问题，别忘了重...

05-17

400元免费彩铃，400彩铃内容

400元免费彩铃，400彩铃内容400电话代理商为你解答。办理400电话的彩铃功能是可选功能，在不同的套餐中如果选择了彩铃功...

07-20

物联卡合法吗(物联卡封卡)

大多数人对物联卡有疑虑，物联卡流量是否虚标？网速怎么样？信号好吗？我就结合自己前段时间办理物联卡使经历，谈谈...

11-07

太仓服务外包依托区位优势

【新民网·独家报道】“与上海接壤，市区距离上海虹桥机场只有35公里，好多服务外包企业都是看中了太仓的这些区位优势...

10-22

广东外呼系统电销（广东外呼系统电销招聘）

本篇文章给咱们谈谈广东外呼体系电销，以及广东外呼体系电销招聘对应的知识点，期望对各位有所协助，不要忘了保藏本站...

11-06

win10家庭版激活提示0x803fa067错误代码怎么解决?

大家可能也会遇到这种情况，win10系统激活失败提示错误代码0x803fa067，有的朋友在将win10家庭版升级到win10专业版的时候遇到...

10-19

针对不同的客户用不同的销售技巧

我们在从事销售的过程中,通过初次打交道后,对客户的跟进非常重要,每个客户至少跟踪三次以上才有效,有的甚至跟单十多年...

10-19

从全球最好的2G网络到全球最好的物联网网络，NB-IoT需求有哪些改变？

在近期举办的全球终端峰会上，我国移动发布了《5G终端产品指引》在业界产生了不小反响，但首要焦点并不在5G上，而是在...

10-13

和平区电话机器人店铺地址（和平区家电维修电话）

本文目录一览：1、听说沈阳中街附近开了一家乐高机器人,想带孩子去上课,有人知道环境怎么...2、中瑞福宁机器人(沈阳)有限...

06-20

VBS教程：函数-Int、Fix 函数

Int、Fix 函数返回数字的整数部分。 Int( number ) Fix( number ) number 参数可以是任意有效的数值表达式。如果 number 参数包含 Nul...

10-18

客服中心也“智能” 揭秘国网客服中心南中心的“黑科技”

724服务，14个省（市）的用户，一天90000部电话接入，7种语言（方言）服务，满意度99.58%，一组组数据印证着国家电网有限公...

10-19

商标提交以后还可以修改吗

提交以后再想修改商标图样是不可能了，不过有些情况是例外的。商标法第二十三条规定：商标局认为商标注册申请内容需要...

10-23

win7系统怎么用硬盘安装ubuntu kylin 14.10？

相信不少ubuntu爱好者都想装个ubuntu kylin系统自己过过瘾，但最新的几个版本里都没有了wubi.exe 没法直接安装了，所以这里就告...

10-20

如何衡量呼叫中心的性能

不能否认如何呼叫中心行业已经非常不论成功当今世界的一部分。当然许多企业认识到需要设置呼叫中心，使他们能够更好地...

10-22

ai电话销售系统

在疫情之下，鼓励全民在家不出户，很多员工回不来无法恢复生产，企业将会出现巨大损失，而这时很多工作都靠人工智能...

10-26

广州网络电话外呼系统（网络电话外呼系统平台）

本文目次一览： 1、广州外呼零碎公司哪家好？ 2、咱们公司在广州，做存款电销的，有合适的外呼零碎吗？ 3、广州有没有做...

11-25

电销不封号老被封

电销不封号老被封电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，所以这样也...

12-16

怎么办理朗玛电销卡（怎么办理朗玛电销卡呢）

本文目录一览：1、电销卡怎么办理2、电销卡怎么买,有哪些注意事项?3、电销卡在哪里办理4、朗玛移动手机卡,怎么注销?电销...

07-10

400开头电话怎么开通（400开头的电话如何申请）

400开头电话怎么开通（400开头的电话如何申请） 400开头电话，是企业、机构或个人为了提升企业形象、服务客户而开通的电...

08-14

高德地图如何增加公司位置？高德如何增加公司位置？

如何高德地图增加地标？长按标记点，然后点收藏，还可以命名，以后都可以查到了。电脑高德地图如何增加多个景点？...

11-26

Win10 Mobile一周年预览版中Edge浏览器将新增滑动翻页手势

滑动翻页手势曾是IE浏览器中非常受欢迎的操作方式，用户在触摸屏设备上用手左右滑动，就可以实现前进和后退的翻页操作...

10-20

电销卡真的不会封号吗？看完这老销售经验分享

电销卡真的不会封号吗？但是不封号的电话卡又到哪里去可以办呢？现在就是想寻找那种不封号的电销卡，因为现在打电话封...

11-23

开通400电话的流程是什么

最近，很多企业了解了400电话的好处后，为了能够不落后与竞争对手，扩展自己企业业务，也想开通400电话服务，那么开通...

05-09

天津房地产电话软件办理费用,电话销售线路哪家好-欢迎洽谈

天津房地产电话软件办理费用,电话销售线路哪家好功能上可以分为普通坐席和班长坐席。·普通坐席完成的功能主要有：人员...

12-16

长春电销卡外呼系统（电销外呼线路联通）

本文目录一览：1、外呼系统是怎么用的?2、电销外呼系统谁家的好用?3、电销的手机号被封了怎么办?外呼系统管用吗?4、电销...

07-10

400电话多少钱400的电话是怎么收费的

(400电话多少钱)(400的电话是怎么收费的)以下内容由巨人小编整理发布。 400电话400电话分为4006（中国联通），4007（中国移动...

01-12

天津呼叫中心外呼系统（天津今晚网络呼叫中心）

本文目录一览： 1、呼叫易呼叫中心体系怎么样？2、外呼体系哪家公司做得好？？？3、天津呼叫中心哪家服务好？4、哪些电...

11-28

400电话号码申请400电话是申请

400电话号码申请400电话是申请以下内容由巨人小编整理发布。提交实名认证材料：400电话是针对企业用户办理，需要营业执...

02-12

电销团队制度薪资（电销团队制度薪资结构）

本文目录一览： 1、请问有人在我国安全做过车险电销吗里边待遇怎样样？是不是压力很大？常常加班吗？根本的每月能拿多...

04-22

洛阳电销外呼系统供应商（郑州电销外呼系统）

本篇文章给大家谈谈洛阳电销外呼系统供应商，以及郑州电销外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本...

02-23

香港电话外呼系统（网络电话外呼系统）

本篇文章给大家谈谈香港电话外呼系统，以及网络电话外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

11-06

温州财税呼叫中心系统供应商,电话营销线路多少钱一张-图文

温州财税呼叫中心系统供应商,电话营销线路多少钱一张人工不管多快，机器的速度都有差异。在电销系统中，客户接到电话...

12-17

Win8系统如何打开cda文件的方法

最近有Win8系统用户询问，cda文件是什么格式文件，又要如何打开。其实cda文件是一种音频格式文件，就是我们常说的CD音轨，...

10-19

金华移动电话营销系统办理公司,电销线路怎么办理-关于

金华移动电话营销系统办理公司,电销线路怎么办理自动识别客户意向并准确的分类，帮你锁定准确客户。经验丰富，拥有通...

12-17

徐州办电话卡做电销封号咋办

徐州办电话卡做电销封号咋办电销卡的使用成本相对来说是比较低的，一般来说都是套餐服务，一个外呼电话也就几分钱，...

12-16

Python爬虫实战之用selenium爬取某旅游网站

10-18

本页收集关于Python爬虫实战之用selenium爬取某旅游网站的相关信息资讯供网民参考！

推荐文章

上一篇：教你如何使用Python selenium

下一篇：还在手动盖楼抽奖?教你用Python实现自动评论盖楼抽奖(一)

一起分享吧