Python scrapy爬取苏州二手房交易数据-巨人网络通讯

主页 > 知识库 > Python scrapy爬取苏州二手房交易数据

Python scrapy爬取苏州二手房交易数据

一、项目需求

使用Scrapy爬取链家网中苏州市二手房交易数据并保存于CSV文件中
要求：
房屋面积、总价和单价只需要具体的数字，不需要单位名称。
删除字段不全的房屋数据，如有的房屋朝向会显示“暂无数据”，应该剔除。
保存到CSV文件中的数据，字段要按照如下顺序排列：房屋名称，房屋户型，建筑面积，房屋朝向，装修情况，有无电梯，房屋总价，房屋单价，房屋产权。

二、项目分析

流程图

通过控制台发现所有房屋信息都在一个ul中其中每一个li里存储一个房屋的信息。

找了到需要的字段，这里以房屋名称为例，博主用linux截图，没法对图片进行标注，这一段就是最中间的“景山玫瑰园” 。
其他字段类似不再一一列举。
获取了需要的数据后发现没有电梯的配备情况，所以需要到详细页也就是点击标题后进入的页面，
点击标题

可以看到里面有下需要的信息。

抓取详细页url

进行详细页数据分析

找到相应的位置，进行抓取数据。

三、编写程序

创建项目，不说了。

1.编写item（数据存储）

import scrapy
class LianjiaHomeItem(scrapy.Item):
     name = scrapy.Field() # 名称
     type = scrapy.Field()  # 户型
     area = scrapy.Field()  # 面积
     direction = scrapy.Field()  #朝向
     fitment = scrapy.Field()  # 装修情况
     elevator = scrapy.Field()  # 有无电梯
     total_price = scrapy.Field()  # 总价
     unit_price = scrapy.Field()  # 单价

2.编写spider（数据抓取）

from scrapy import Request
from scrapy.spiders import Spider
from lianjia_home.items import LianjiaHomeItem

class HomeSpider(Spider):
    name = "home"
    current_page=1 #起始页

    def start_requests(self): #初始请求
        url="https://su.lianjia.com/ershoufang/"
        yield Request(url=url)

    def parse(self, response): #解析函数
        list_selctor=response.xpath("//li/div[@class='info clear']")
        for one_selector in list_selctor:
            try:
                #房屋名称
                name=one_selector.xpath("//div[@class='flood']/div[@class='positionInfo']/a/text()").extract_first()
                #其他信息
                other=one_selector.xpath("//div[@class='address']/div[@class='houseInfo']/text()").extract_first()
                other_list=other.split("|")
                type=other_list[0].strip(" ")#户型
                area = other_list[1].strip(" ") #面积
                direction=other_list[2].strip(" ") #朝向
                fitment=other_list[3].strip(" ") #装修
                price_list=one_selector.xpath("div[@class='priceInfo']//span/text()")
                # 总价
                total_price=price_list[0].extract()
                # 单价
                unit_price=price_list[1].extract()

                item=LianjiaHomeItem()
                item["name"]=name.strip(" ")
                item["type"]=type
                item["area"] = area
                item["direction"] = direction
                item["fitment"] = fitment
                item["total_price"] = total_price
                item["unit_price"] = unit_price

            #生成详细页
                url = one_selector.xpath("div[@class='title']/a/@href").extract_first()
                yield Request(url=url,
                              meta={"item":item}, #把item作为数据v传递
                              callback=self.property_parse) #爬取详细页
            except:
                print("error")

        #获取下一页
            self.current_page+=1
            if self.current_page=100:
                next_url="https://su.lianjia.com/ershoufang/pg%d"%self.current_page
                yield Request(url=next_url)


    def property_parse(self,response):#详细页
        #配备电梯
        elevator=response.xpath("//div[@class='base']/div[@class='content']/ul/li[last()]/text()").extract_first()
        item=response.meta["item"]
        item["elevator"]=elevator
        yield item

3.编写pipelines（数据处理）

import re
from scrapy.exceptions import DropItem
class LianjiaHomePipeline:#数据的清洗
    def process_item(self, item, spider):
        #面积
        item["area"]=re.findall("\d+\.?\d*",item["area"])[0] #提取数字并存储
        #单价
        item["unit_price"] = re.findall("\d+\.?\d*", item["unit_price"])[0] #提取数字并存储

        #如果有不完全的数据，则抛弃
        if item["direction"] =="暂无数据":
            raise DropItem("无数据，抛弃：%s"%item)

        return item

class CSVPipeline(object):
    file=None
    index=0 #csv文件行数判断
    def open_spider(self,spider): #爬虫开始前，打开csv文件
        self.file=open("home.csv","a",encoding="utf=8")

    def process_item(self, item, spider):#按要求存储文件。
        if self.index ==0:
            column_name="name,type,area,direction,fitment,elevator,total_price,unit_price\n"
            self.file.write(column_name)#插入第一行的索引信息
            self.index=1

        home_str=item["name"]+","+item["type"]+","+item["area"]+","+item["direction"]+","+item["fitment"]+","+item["elevator"]+","+item["total_price"]+","+item["unit_price"]+"\n"
        self.file.write(home_str) #插入获取的信息

        return item

    def close_soider(self,spider):#爬虫结束后关闭csv
        self.file.close()

4.编写settings（爬虫设置）

这里只写下需要修改的地方

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
#为装成浏览器
ROBOTSTXT_OBEY = False #不遵循robots协议
ITEM_PIPELINES = {
    'lianjia_home.pipelines.LianjiaHomePipeline': 300,
    #先进行数字提取
    'lianjia_home.pipelines.CSVPipeline': 400
    #在进行数据的储存
    #执行顺序由后边的数字决定
}

这些内容在settings有些是默认关闭的，把用来注释的 # 去掉即可开启。

5.编写start（代替命令行）

from scrapy import cmdline

cmdline.execute("scrapy crawl home" .split())

附上两张结果图。

总结

此次项目新增了简单的数据清洗，在整体的数据抓取上没有增加新的难度。

到此这篇关于Python scrapy爬取苏州二手房交易数据的文章就介绍到这了,更多相关scrapy爬取二手房交易数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python手拉手教你爬取贝壳房源数据的实战教程
Python爬虫之爬取我爱我家二手房数据
python爬取链家二手房的数据
Python爬虫之爬取二手房信息
基于python爬取链家二手房信息代码示例
python爬虫爬取58同城上所有城市的租房信息详解
Python爬虫入门案例之爬取二手房源数据

标签：沈阳长治红河沧州乐山河南上海新疆

巨人网络通讯声明：本文标题《Python scrapy爬取苏州二手房交易数据》，本文关键词；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

电销机器人到底如何运作的？

很多人对电销机器人到底如何运作存在着巨大的好奇心，那么今天，小编就带大家看一下机器人的运作流程！电销...

10-24

电话机器人的兴起对电销行业来说是“惊喜”还

随着互联网大数据的普及，许多电销行业如雨后春笋般争先恐后地冒出来。而今电销行业的混乱，让各位涉足电销...

10-24

百应电话机器人有哪些功能？百应电话机器人好

百应智能电话机器人能够协助企业进行呼入接待、外呼回访等服务场景，能够经过不断的培训学习，逐步完善成专...

10-24

客服外呼系统都有哪些优势？

当前呼叫中心电话系统被企业用于业务电销以及客户服务，然而随着企业需求不断扩大，原来传统的自建呼叫中心...

10-24

电销机器人效果怎么样？智能电话机器人可行吗

几百数千年后，或许没人会记得卡斯帕罗夫曾是世界第一的围棋高手，但人们会记得，他败给了电脑深蓝。那虽算不...

10-24

百应智能外呼系统，贷后管理科技升级

去年底开始，接连出台政策和法规加强对消费金融等金融形态进行规范。强监管下，行业走向规范发展，行业竞...

10-24

百应智能外呼系统引领外呼行业新风向

电话销售：您好，我这边是XX地产，给您推荐一下精装酒店式公寓，有兴趣了解一下吗? 客户：具体位置在哪里啊?...

10-24

小贷企业为什么需要电销机器人？

随着信贷行业逐步进入我们的生活中，越来越多人选择借款来处理资金难题。信贷企业不断涌现，业务开展迅猛，行...

10-24

雷霆电话机器人是如何转接人工的？

当我们在拨通移动、联通或电信运营商的客服电话时，总会要先经过一些机械化的选择，然后成功连接人工坐席反馈...

10-24

米卡迪电话机器人效果怎么样？

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。 ASR 语音识别米卡迪电话机器人...

10-24

灵声电话机器人效果怎么样？好用吗

外呼电话机器人，之所以能智能的与客户无忧交流，因为运用了下面这么多高技术。灵声电话机器人效果怎么样？...

10-24

电销机器人要想效果好，话术定制有多重要

电话机器人是基于智能语音技术的智能营销工具。它会像真人一样主动拨打客户的电话，介绍产品并回答客户的咨询...

10-24

智能电话机器人的实现原理，使用安全吗？

随着科学技术的进步和人工智能的发展，越来越多的智能产品已经进入我们的工作和生活。智能手机、智能电视、智...

10-24

福州哪里有电话机器人研发公司？

人工智能再次成为各行各业关注的焦点，自从这个概念首次提出以来，60年已经过去了。自从AlphaGo以巨大优势击败人...

10-24

电销机器人销售能力怎么样？

自从电话机器人一出现，在电销行业火爆了起来。面对电话机器人的各种优势，企业跃跃欲试，但又害怕效果不理...

10-24

推荐文章

AOFAX金融业呼叫中心系统，营销、管理与客服并重的电话软件

win7右下角的网络连接显示红叉,但可以正常上网是怎么回事?如何解决?

centos安装xenserver xe命令行的方法

邮件发送简单例子-jsp文件

【干货】实用的网站空间购买指南

一个文义性品牌定义的提出与讨论

laravel与thinkphp之间的区别与优缺点

uniqueidentifier转换成varchar数据类型的sql语句

上一篇：Python中pip工具的安装以及使用

下一篇：使用Python pandas读取CSV文件应该注意什么?

一起分享吧

Python scrapy爬取苏州二手房交易数据

一、项目需求

二、项目分析

三、编写程序

总结

QQ咨询

电话咨询