一本色道**综合亚洲精品蜜桃冫,亚洲1区在线观看,久久国产精品99久久久久久丝袜

主頁 > 知識庫 > Python scrapy爬取蘇州二手房交易數據

Python scrapy爬取蘇州二手房交易數據

一、項目需求

使用Scrapy爬取鏈家網中蘇州市二手房交易數據并保存于CSV文件中
要求：
房屋面積、總價和單價只需要具體的數字，不需要單位名稱。
刪除字段不全的房屋數據，如有的房屋朝向會顯示“暫無數據”，應該剔除。
保存到CSV文件中的數據，字段要按照如下順序排列：房屋名稱，房屋戶型，建筑面積，房屋朝向，裝修情況，有無電梯，房屋總價，房屋單價，房屋產權。

二、項目分析

流程圖

通過控制臺發(fā)現所有房屋信息都在一個ul中其中每一個li里存儲一個房屋的信息。

找了到需要的字段，這里以房屋名稱為例，博主用linux截圖，沒法對圖片進行標注，這一段就是最中間的“景山玫瑰園” 。
其他字段類似不再一一列舉。
獲取了需要的數據后發(fā)現沒有電梯的配備情況，所以需要到詳細頁也就是點擊標題后進入的頁面，
點擊標題

可以看到里面有下需要的信息。

抓取詳細頁url

進行詳細頁數據分析

找到相應的位置，進行抓取數據。

三、編寫程序

創(chuàng)建項目，不說了。

1.編寫item（數據存儲）

import scrapy
class LianjiaHomeItem(scrapy.Item):
     name = scrapy.Field() # 名稱
     type = scrapy.Field()  # 戶型
     area = scrapy.Field()  # 面積
     direction = scrapy.Field()  #朝向
     fitment = scrapy.Field()  # 裝修情況
     elevator = scrapy.Field()  # 有無電梯
     total_price = scrapy.Field()  # 總價
     unit_price = scrapy.Field()  # 單價

2.編寫spider（數據抓取）

from scrapy import Request
from scrapy.spiders import Spider
from lianjia_home.items import LianjiaHomeItem

class HomeSpider(Spider):
    name = "home"
    current_page=1 #起始頁

    def start_requests(self): #初始請求
        url="https://su.lianjia.com/ershoufang/"
        yield Request(url=url)

    def parse(self, response): #解析函數
        list_selctor=response.xpath("http://li/div[@class='info clear']")
        for one_selector in list_selctor:
            try:
                #房屋名稱
                name=one_selector.xpath("http://div[@class='flood']/div[@class='positionInfo']/a/text()").extract_first()
                #其他信息
                other=one_selector.xpath("http://div[@class='address']/div[@class='houseInfo']/text()").extract_first()
                other_list=other.split("|")
                type=other_list[0].strip(" ")#戶型
                area = other_list[1].strip(" ") #面積
                direction=other_list[2].strip(" ") #朝向
                fitment=other_list[3].strip(" ") #裝修
                price_list=one_selector.xpath("div[@class='priceInfo']//span/text()")
                # 總價
                total_price=price_list[0].extract()
                # 單價
                unit_price=price_list[1].extract()

                item=LianjiaHomeItem()
                item["name"]=name.strip(" ")
                item["type"]=type
                item["area"] = area
                item["direction"] = direction
                item["fitment"] = fitment
                item["total_price"] = total_price
                item["unit_price"] = unit_price

            #生成詳細頁
                url = one_selector.xpath("div[@class='title']/a/@href").extract_first()
                yield Request(url=url,
                              meta={"item":item}, #把item作為數據v傳遞
                              callback=self.property_parse) #爬取詳細頁
            except:
                print("error")

        #獲取下一頁
            self.current_page+=1
            if self.current_page=100:
                next_url="https://su.lianjia.com/ershoufang/pg%d"%self.current_page
                yield Request(url=next_url)


    def property_parse(self,response):#詳細頁
        #配備電梯
        elevator=response.xpath("http://div[@class='base']/div[@class='content']/ul/li[last()]/text()").extract_first()
        item=response.meta["item"]
        item["elevator"]=elevator
        yield item

3.編寫pipelines（數據處理）

import re
from scrapy.exceptions import DropItem
class LianjiaHomePipeline:#數據的清洗
    def process_item(self, item, spider):
        #面積
        item["area"]=re.findall("\d+\.?\d*",item["area"])[0] #提取數字并存儲
        #單價
        item["unit_price"] = re.findall("\d+\.?\d*", item["unit_price"])[0] #提取數字并存儲

        #如果有不完全的數據，則拋棄
        if item["direction"] =="暫無數據":
            raise DropItem("無數據，拋棄：%s"%item)

        return item

class CSVPipeline(object):
    file=None
    index=0 #csv文件行數判斷
    def open_spider(self,spider): #爬蟲開始前，打開csv文件
        self.file=open("home.csv","a",encoding="utf=8")

    def process_item(self, item, spider):#按要求存儲文件。
        if self.index ==0:
            column_name="name,type,area,direction,fitment,elevator,total_price,unit_price\n"
            self.file.write(column_name)#插入第一行的索引信息
            self.index=1

        home_str=item["name"]+","+item["type"]+","+item["area"]+","+item["direction"]+","+item["fitment"]+","+item["elevator"]+","+item["total_price"]+","+item["unit_price"]+"\n"
        self.file.write(home_str) #插入獲取的信息

        return item

    def close_soider(self,spider):#爬蟲結束后關閉csv
        self.file.close()

4.編寫settings（爬蟲設置）

這里只寫下需要修改的地方

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
#為裝成瀏覽器
ROBOTSTXT_OBEY = False #不遵循robots協(xié)議
ITEM_PIPELINES = {
    'lianjia_home.pipelines.LianjiaHomePipeline': 300,
    #先進行數字提取
    'lianjia_home.pipelines.CSVPipeline': 400
    #在進行數據的儲存
    #執(zhí)行順序由后邊的數字決定
}

這些內容在settings有些是默認關閉的，把用來注釋的 # 去掉即可開啟。

5.編寫start（代替命令行）

from scrapy import cmdline

cmdline.execute("scrapy crawl home" .split())

附上兩張結果圖。

總結

此次項目新增了簡單的數據清洗，在整體的數據抓取上沒有增加新的難度。

到此這篇關于Python scrapy爬取蘇州二手房交易數據的文章就介紹到這了,更多相關scrapy爬取二手房交易數據內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python手拉手教你爬取貝殼房源數據的實戰(zhàn)教程
Python爬蟲之爬取我愛我家二手房數據
python爬取鏈家二手房的數據
Python爬蟲之爬取二手房信息
基于python爬取鏈家二手房信息代碼示例
python爬蟲爬取58同城上所有城市的租房信息詳解
Python爬蟲入門案例之爬取二手房源數據

標簽：泉州怒江安慶清遠長春洛陽吉林岳陽

巨人網絡通訊聲明：本文標題《Python scrapy爬取蘇州二手房交易數據》，本文關鍵詞 Python,scrapy,爬取,蘇州,二手房,；如發(fā)現本文內容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《Python scrapy爬取蘇州二手房交易數據》相關的同類信息！

Python scrapy爬取蘇州二手房交易數據

一、項目需求使用Scrapy爬取鏈家網中蘇州市二手房交易數據并保存于CSV文件中要求：房屋面積、總價和單價只需要具體的數字，不需要單位名稱。刪除字段不全的房屋數據，如有的房...

10-18

《世界版權公約》

《世界版權公約》由聯(lián)合國教科文組織發(fā)起簽訂，于1952年9月6日在瑞士日內瓦獲得通過，1955年生效。1971年7月在巴黎曾作補充...

10-23

上海ai外呼電話機器人哪家強（ai機器人運營商外呼線路）

本文目錄一覽：1、ai智能電話銷售機器人哪家的靠譜?2、選擇智能電話機器人的話,哪家的比較好?3、人工電話機器人選哪家實...

07-15

現代企業(yè)是否有必要開通400電話？

在發(fā)展競爭中，企業(yè)希望與潛在客戶溝通，改善客戶服務體驗，優(yōu)化品牌形象，提高競爭力。很難使用網絡平臺或其他社交軟...

04-03

蘭州電銷卡外呼系統(tǒng)線路

蘭州電銷卡外呼系統(tǒng)線路現在工信部對高頻段呼出嚴打的環(huán)境下，電銷公司只能依靠外呼系統(tǒng)線路來避免因高頻外呼而封號...

11-15

濟南三網電銷軟件批發(fā),電話銷售系統(tǒng)辦理-點擊查看

濟南三網電銷軟件批發(fā),電話銷售系統(tǒng)辦理實際上，言通智能營銷系統(tǒng)作為一站式智能營銷解決方案服務平臺，本質上就是為...

12-16

天潤融通助力梵客家居優(yōu)化呼叫中心體系

在當今社會，傾聽用戶的每一個聲音，確保服務渠道的方便和順暢，及時響應服務人員，是企業(yè)與用戶進行良性溝通、建立信...

07-12

呼叫中心職業(yè)生涯目標制訂的基本步驟方法與目標制定的具體方法

(一) 呼叫中心職業(yè)生涯目標制訂的基本步驟: 職業(yè)生涯目標的制訂一般需要經過6個步驟。 (1)自我分析，認識自我，找出自己...

10-20

宜春外呼系統(tǒng)價格（外呼系統(tǒng)哪家線路比較好）

本篇文章給大家談談宜春外呼系統(tǒng)價格，以及外呼系統(tǒng)哪家線路比較好對應的知識點，希望對各位有所幫助，不要忘了收藏本...

05-17

多功能客服帶動400電話辦理

400電話從通常意義上來講就是一種主被叫分攤業(yè)務，就是說主叫承擔市話接入費，而被叫承擔所有來電接聽費用。400電話具有...

05-15

400電話語音導航內容內蒙古400電話有哪些功能

內蒙古赤峰400電話語音導航功能：通過語音提示選擇按鈕，將電話直接轉到相關部門。 “歡迎致電***公司，咨詢請按1，售后...

01-12

400開頭的電話能接嗎400開頭電話可以接聽嗎

(400開頭的電話能接嗎)(400開頭電話可以接聽嗎)以下內容由巨人小編整理發(fā)布。 400電話只是一個轉接來電的服務，沒有線路，...

01-12

得到XML文檔大小的方法

XML文檔從格式到大小都是不是確定的。有的可能只有幾行，而有的卻有好幾兆字節(jié)。你也許會懷疑是不是需要了解XML文檔的大...

10-18

python 實現多線程的三種方法總結

1._thread.start_new_thread(了解) import threadingimport timeimport _threaddef job(): print("這是一個需要執(zhí)行的任務。。。。。") print("當前線程...

10-18

抖音短視頻代運營中有哪些流量池引薦規(guī)律？

抖音是一個關于夸姣的短視頻APP，不同于快手的略微低俗的流量和受眾，抖音是一個記載“夸姣”的產品，夸姣是什么？每個...

03-01

寧波房產專用語音電銷機器人多少一臺-誠信優(yōu)惠

寧波房產專用語音電銷機器人多少一臺機器人都要等到這通轉接人工通話結束后才會進行下一通的呼出，這就降低了機器人的...

05-18

徐州人工智能電話機器人（徐州人工智能電話機器人招聘）

本文目錄一覽： 1、人工智能電話機器人到底值不值得應用?2、人工智能電話營銷機器人到底能做什么？3、人工智能電話機器...

11-28

麗水防封外呼機器人辦理價格,外呼機器人-原來是這樣

麗水防封外呼機器人辦理價格,外呼機器人不變則亡”的抉擇。據有關預測，在未來銷售行業(yè)，越早接觸人工智能的企業(yè)，就...

12-16

隨時隨地新浪網看病，東華互聯(lián)網醫(yī)院藥品處方

盡管現在優(yōu)先選擇電話銷售服務中心BizTalk的民營企業(yè)有許多，但也并非所有民營企業(yè)的電話銷售服務中心都有必要BizTalk出去...

11-29

汕尾企業(yè)電銷卡（汕尾企業(yè)電銷卡怎么辦理）

本文目錄一覽：1、電銷卡如何避免封卡?2、電銷卡是什么卡?3、電銷卡為什么要留公司名4、電銷卡是否真的不封號?卡總被停...

07-10

打電銷不封號的手機卡

不封號的手機卡，電銷不封卡，電銷手機卡為什么要用電銷卡？對于電銷公司來說，電銷封卡是給不容忽視的問題！如果沒...

11-15

河北電話外呼系統(tǒng)有效果嗎（電話外呼人員是干什么的）

今天給各位分享河北電話外呼系統(tǒng)有效果嗎的知識，其中也會對電話外呼人員是干什么的進行解釋，如果能碰巧解決你現在面...

06-09

阿朗或15億美元出售企業(yè)電信設備部門正尋買家

4月14日消息，據國外媒體報道，知情人士稱，阿爾卡特-朗訊正在探索出售其向企業(yè)銷售電話和其它電信設備的業(yè)務部門。這...

10-19

海航通信卡正規(guī)嗎?（海航通信電話卡正規(guī)么）

近些年虛擬運營商慢慢走進大家的日常生活中，但是有很多人并不了解虛擬運營商，甚至對虛擬運營商存在誤解，虛擬運營商...

09-19

400電話是免費嗎400電話的免費與不免費

400電話是代理400電話主要的分攤支付業(yè)務，也就是說需要支付一定的電話費，但是這個費用很低，只是一個本地的城市電話費...

01-12

商標品牌俗稱、簡稱、昵稱法律保護的典型案例

來源：福建質量管理作者：紀翔 “索尼愛立信”是日本索尼公司和瑞典愛立信公司的合資企業(yè)，成立于2001年，在中國市場上...

10-23

青島將認定技術先進型服務企業(yè)

人民網青島視窗1月11日消息: 青島將在今年開展技術先進型服務企業(yè)的認定工作,以促進企業(yè)技術創(chuàng)新和技術服務能力的提升。...

10-22

長治自動電銷卡大全（長治電信營業(yè)廳電話號碼）

本文目錄一覽：1、有什么適合做電銷的手機卡2、什么是電銷卡3、哪些電銷卡?4、智慧加油站系統(tǒng)公司找哪家比較好？5、防封...

07-10

在線客服系統(tǒng)選擇要點，用戶滿意度調查顯示明確結果

企業(yè)發(fā)展需要挖掘和維護客戶關系，找到適合的在線客服系統(tǒng)至關重要。選擇在線客服系統(tǒng)關鍵點在于接入全渠道客戶資源，...

07-12

南江免費的電銷外呼系統(tǒng)（電銷外呼系統(tǒng) 南牛網絡）

本篇文章給咱們談談南江免費的電銷外呼體系，以及電銷外呼體系南牛網絡對應的知識點，期望對各位有所協(xié)助，不要忘了...

05-17

“叔同”商標被認無效申請人不服訴至法院

來源：中國法院網近日，北京知識產權法院受理了“叔同”商標無效宣告請求行政糾紛一案。訴爭商標由牧馬人公司于201...

10-23

服務外包行業(yè)上QQ開會

本報訊從區(qū)外經貿局了解到，蕭山區(qū)服務外包第一次網絡工作會議已于近日召開，全區(qū)有30多家服務外包企業(yè)在網上以QQ群聊...

10-22

電銷客戶軟件使用介紹

導入編號【電銷客戶軟件使用介紹】外呼模板【電銷客戶軟件使用介紹】 4、設定編號說明規(guī)則【電銷客戶軟件使用介紹】...

10-30

未來農業(yè)報告：物聯(lián)網和新零售是主要力量

35斗對這份名為《食物革命：糧食的未來和我們面臨的挑戰(zhàn)》的報告進行了編譯，將陸續(xù)刊出。這是該系列的第四篇文章，主...

10-13

Linux使用文本瀏覽器lynx并顯示中文的方法

使用Fedora，當然需要玩一些酷的東東，lynx是在文本環(huán)境下不錯的網頁瀏覽工具，在網速不好的時候使用lynx可以減少網頁下載...

10-20

安裝ghost win7系統(tǒng)時藍屏提示錯誤代碼0x0000007E的故障原因及解決方法

電腦藍屏問題是Windows系統(tǒng)中常見的問題，安裝系統(tǒng)時也不常會遇到系統(tǒng)藍屏的問題。比如有一用戶安裝win7 純凈版系統(tǒng)出現藍...

10-19

物聯(lián)卡應用_遠特通信卡盟不僅為合作伙伴賦能還可增強變現能....

2022年，物聯(lián)網領域突破萬億市場，各種工業(yè)級和民用級智能設備層出不窮。物聯(lián)網卡在物聯(lián)網設備中起著重要作用，需求也...

11-07

湖州crm外呼系統(tǒng)多少錢（crm外呼工作的弊端）

本文目錄一覽： 1、外呼體系一個多少錢，有哪些功用？2、外呼體系多少錢一個月？3、外呼體系多少錢一套？怎樣裝置？4、...

04-22

移動撥打400電話怎么收費移動，靈活，可擴展和可靠的400電話系統(tǒng)解決方案

目前，通信工具越來越發(fā)展，固定電話逐漸淡出人們的視野。人們越來越喜歡日常交流的移動通信工具。我們可以隨時隨地...

01-13

內蒙古電銷機器人（電銷機器人外呼）

今天給各位共享內蒙古電銷機器人的常識，其間也會對電銷機器人外呼進行解說，假如能可巧處理你現在面臨的問題，別忘...

11-06

400號碼接聽要錢嗎400電話辦理費用會受哪些因素影響

作為企業(yè)的專屬客戶服務電話，400電話采用主被稱分享的方式。無論是用戶打電話還是企業(yè)接聽，都需要支付電話費，但雙...

01-12

巨人科技有很多400開頭的電話供企業(yè)選擇

05-15

電銷卡辦理難嗎（辦電銷卡有什么影響）

本文目錄一覽： 1、電銷卡在哪里處理多少錢2、平頂山電銷卡怎樣處理3、電信電銷改套餐好做嗎?4、本年電銷卡真的太難了，...

04-22

win8系統(tǒng)連網就藍屏提示unexpected kernel mode trap錯誤怎么辦?

win8一連上網，不久便藍屏，顯示unexpected kernel mode trap,怎么辦呢？ 1、同時按下 win鍵和x鍵，呼出快捷菜單。 2、按下M鍵，啟...

10-20

移動400資費包括什么移動業(yè)務400是什么意思

移動400資費包括什么移動業(yè)務400是什么意思以下內容由巨人小編整理發(fā)布。座機撥打400電話是收費的按照市話費收取。手機...

02-07

在全球外包100名中，RR Donnelley是領先的外包服務提供商

R. R. Donnelley & Sons 公司今天宣布：在全球外包 100 名中，其全球外包服務已連續(xù)第四年被公眾認可。全球外包 100 強名單，每年...

10-22

專利權限制的立法完善

專利權的內容立法始終關系專利權個人利益與國家、社會利益之間的平衡問題。在各國立法實踐中。它們大都規(guī)定了專利權的...

10-23

菏澤市機器人電銷外包招聘（菏澤市機器人電銷

本文目錄一覽：1、有了電銷機器人是不是就不需求招電銷職工了？2、沒有用的比較好的電銷機器人啊？求介紹！現在的招...

11-29

使用電銷卡是不是不會被封號？電銷卡會被封號嗎？

使用電銷卡是不是不會被封號？電銷卡會被封號嗎？由于電銷卡越來越容易出現封號的問題，所以不少的電銷人員把目光...

10-26

400電話辦理的費用是多少呢400電話辦理如何選擇一家靠譜的服務商

說到客戶服務電話的使用，我相信很多企業(yè)不會感到奇怪。隨著科學技術的不斷發(fā)展，也有許多高質量的工具可以使用，這...

01-13

最全Windows 10高清鎖屏壁紙下載附網盤下載地址

為了增加Windows 10的美觀性，微軟為自己的新一代操作系統(tǒng)新增了一個鎖屏壁紙更換功能Windows聚焦（Windows spotlight）。 Window...

10-20

Python scrapy爬取蘇州二手房交易數據

10-18

本頁收集關于Python scrapy爬取蘇州二手房交易數據的相關信息資訊供網民參考！

推薦文章

上一篇：Python中pip工具的安裝以及使用

下一篇：使用Python pandas讀取CSV文件應該注意什么?

一起分享吧

校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

Python scrapy爬取蘇州二手房交易數據

一、項目需求

二、項目分析

三、編寫程序

總結