校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > python 爬取國內小說網站

python 爬取國內小說網站

熱門標簽:地圖標注自己和別人標注區別 孝感營銷電話機器人效果怎么樣 ai電銷機器人的優勢 商家地圖標注海報 海外網吧地圖標注注冊 騰訊地圖標注沒法顯示 打電話機器人營銷 南陽打電話機器人 聊城語音外呼系統

原理先行

作為一個資深的小說愛好者,國內很多小說網站如出一轍,什么 🖊*閣啊等等,大都是 get 請求返回 html 內容,而且會有標志性的dl>dd>等標簽。
所以大概的原理,就是先 get 請求這個網站,然后對獲取的內容進行清洗,寫進文本里面,變成一個 txt,導入手機,方便看小說。

實踐篇

之前踩過一個坑,一開始我看了幾頁小說,大概小說的內容網站是https://www.xxx.com/小說編號/章節編號.html,一開始看前幾章,我發現章節編號是連續的, 于是我一開始想的就是記住起始章節編號,然后在循環的時候章節編號自增就行,后面發現草率了,可能看個 100 章之后,章節列表會出現斷層現象,這個具體為啥 還真不知道,按理說小說編號固定,可以算是一個數據表,那里面的章節編號不就是一個自增 id 就完了嘛?有懂王可以科普一下!
所以這里要先獲取小說的目錄列表,并把目錄列表洗成一個數組方便我們后期查找!getList.py文件:

定義一個請求書簽的方法

# 請求書簽地址
def req():
    url = "https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

將獲取到的內容提取出(id:唯一值/或第 X 章小說)(name:小說的章節名稱)(key:小說的章節 id)

# 定義一個章節對象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 轉換成書列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("/dt>",html)[2]
    html = re.split("/dl>",html)[0]
    htmlList = re.split("/dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 獲取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章節
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)/a>',i)
            else :
                key = key + 1
            # 獲取名字
            # lsname = re.findall(r'.html">(.+?)/a>',i)[0]
            # name = re.sub(',',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)/a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

注意一下我:如果你從別的語言轉 py,第一次寫object對象可能會比較懵,沒錯因為他的object是一個class,這里我創建的對象就是{id,key,name}但是你寫入 txt 的時候還是要getString,所以后面想想我直接寫個{id:xxx,name:xxx,key:xxx}的字符串不就完了,還弄啥class,后面還是想想給兄弟盟留點看點,就留著了

最后寫入 txt 文件

# 寫入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 這里不能寫list,要先轉字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('寫入成功')

# 大概寫完的txt是這樣的
id:3798160,name:第1章 孫子,我是你爺爺,key:1
id:3798161,name:第2章 孫子,等等我!,key:2
id:3798162,name:第3章 天上掉下個親爺爺,key:3
id:3798163,name:第4章 超級大客戶,key:4
id:3798164,name:第5章 一張退婚證明,key:5

ok ! Last one
這里已經寫好了小說的目錄,那我們就要讀取小說的內容,同理

先寫個請求

# 請求內容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

讀取我們剛剛保存的目錄

def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 這里按行讀取,讀取完后line是個數組
    line = f.readlines()
    f.close()
    return line

定義好一個清洗數據的規則

contextRule = r'div class="content">(.+?)script>downByJs();/script>'
titleRule = r'h1>(.+?)/h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('div id="content" class="showtxt">',html)[1]
    context = re.split('/div>',context)[0]
    context = re.sub('nbsp;|\r|\n','',context)
    textList = re.split('br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--寫入成功'%(title))

再寫入文件

def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

最后當然是串聯起來啦

def getTxt():
    # 默認參數配置
    startNum = 1261 # 起始章節
    endNum = 1300 # 結束章節
    # 開始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum  startNum:
        print('結束條數必須大于開始條數')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

完整代碼

getList.py

import requests
import re

# 請求書簽地址
def req():
    url = "https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

# 定義一個章節對象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 轉換成書列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("/dt>",html)[2]
    html = re.split("/dl>",html)[0]
    htmlList = re.split("/dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 獲取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章節
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)/a>',i)
            else :
                key = key + 1
            # 獲取名字
            # lsname = re.findall(r'.html">(.+?)/a>',i)[0]
            # name = re.sub(',',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)/a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

# 寫入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 這里不能寫list,要先轉字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('寫入成功')


def main():
    tranceList()

if __name__ == '__main__':
    main() 

writeTxt.py

import requests
import re
import time


# 請求內容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 這里按行讀取
    line = f.readlines()
    f.close()
    return line

contextRule = r'div class="content">(.+?)script>downByJs();/script>'
titleRule = r'h1>(.+?)/h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('div id="content" class="showtxt">',html)[1]
    context = re.split('/div>',context)[0]
    context = re.sub('nbsp;|\r|\n','',context)
    textList = re.split('br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--寫入成功'%(title))

def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

def getTxt():
    # 默認參數配置
    startNum = 1261 # 起始章節
    endNum = 1300 # 結束章節
    # 開始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum  startNum:
        print('結束條數必須大于開始條數')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

    
def main():
    getTxt()

if __name__ == "__main__":
    main()

以上就是python 爬取國內小說網站的詳細內容,更多關于python 爬取小說網站的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python爬蟲入門教程02之筆趣閣小說爬取
  • python 爬取小說并下載的示例
  • python爬取”頂點小說網“《純陽劍尊》的示例代碼
  • Python爬取365好書中小說代碼實例
  • Python實現的爬取小說爬蟲功能示例
  • Python scrapy爬取起點中文網小說榜單
  • python爬蟲之爬取筆趣閣小說升級版

標簽:楊凌 揚州 迪慶 牡丹江 南寧 聊城 撫州 六盤水

巨人網絡通訊聲明:本文標題《python 爬取國內小說網站》,本文關鍵詞  python,爬取,國內,小說,網站,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 爬取國內小說網站》相關的同類信息!
  • 本頁收集關于python 爬取國內小說網站的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    亚洲制服欧美中文字幕中文字幕| 亚洲少妇最新在线视频| 国产精品久久久久毛片软件| 亚洲一区电影777| 经典一区二区三区| 91麻豆精品在线观看| 91精品国产综合久久婷婷香蕉 | 亚洲国产精品高清| 亚洲一二三区不卡| 欧美色综合网站| 欧美国产精品v| 日韩电影免费在线观看网站| 风流少妇一区二区| 欧美videossexotv100| 国产精品久久久久久福利一牛影视| 天天做天天摸天天爽国产一区 | 丁香激情综合国产| 91精品国产综合久久精品| 日韩伦理电影网| 国产呦萝稀缺另类资源| 91精品国产91久久综合桃花| 亚洲欧美激情在线| 国产不卡免费视频| 欧美成人精品福利| 日韩av不卡一区二区| 日本高清不卡一区| 亚洲丝袜另类动漫二区| 国产精品自拍在线| 久久综合九色综合欧美就去吻 | 日韩亚洲欧美一区| 首页国产欧美日韩丝袜| 在线日韩一区二区| 亚洲桃色在线一区| 99精品欧美一区二区蜜桃免费| 国产亚洲欧美日韩日本| 国内成人自拍视频| 久久综合九色综合久久久精品综合| 欧美日韩精品欧美日韩精品一综合| 日韩一区在线看| 99久久er热在这里只有精品66| 国产午夜精品福利| 国产suv一区二区三区88区| 欧美va亚洲va| 国产精品影视网| 国产亚洲精品中文字幕| 国产成人在线看| 国产欧美精品区一区二区三区| 国产电影一区二区三区| 亚洲国产精品av| 99久久er热在这里只有精品15| 亚洲人午夜精品天堂一二香蕉| 91麻豆精品视频| 亚洲成va人在线观看| 欧美一区二区三区白人| 国产在线乱码一区二区三区| 久久久久久久久久久黄色| 国产99久久久国产精品潘金网站| 国产精品人成在线观看免费| 91天堂素人约啪| 日韩国产精品大片| 久久一区二区三区国产精品| 国产91综合一区在线观看| 亚洲免费视频中文字幕| 777午夜精品免费视频| 精品一区二区免费| 国产精品久久久久久久久免费相片| 91日韩精品一区| 日韩精品1区2区3区| 久久久久99精品一区| 91亚洲永久精品| 国产视频一区不卡| 色哟哟一区二区| 麻豆精品一区二区av白丝在线| 26uuu亚洲| 91久久精品国产91性色tv| 日本不卡一区二区三区| 日本一区二区三区在线不卡| 91国偷自产一区二区三区观看| 捆绑调教一区二区三区| 自拍偷拍欧美精品| 精品国产乱码久久久久久浪潮| www.99精品| 激情综合一区二区三区| 一区二区三区四区不卡视频| 精品免费国产二区三区| 91麻豆免费观看| 国产成人av福利| 欧美一区2区视频在线观看| 亚洲精品高清在线观看| 久久久99精品久久| 午夜伦欧美伦电影理论片| 欧美午夜在线一二页| 国产一区久久久| 日韩国产一二三区| 国产精品视频一区二区三区不卡| 99在线热播精品免费| 久久成人免费日本黄色| 一区二区在线观看视频| 国产欧美在线观看一区| 欧美一级欧美三级| 欧美色视频在线观看| 国产99精品视频| 寂寞少妇一区二区三区| 亚洲成人av一区二区三区| 一级精品视频在线观看宜春院| 亚洲日本在线视频观看| 久久人人97超碰com| 88在线观看91蜜桃国自产| 91美女片黄在线观看| 成人性生交大片| 国产精品自拍一区| 韩国欧美一区二区| 日韩和欧美的一区| 天天影视色香欲综合网老头| 一区二区三区在线影院| 亚洲三级电影网站| 亚洲日本乱码在线观看| 亚洲特黄一级片| 亚洲免费av网站| 夜夜嗨av一区二区三区网页| 亚洲欧洲av另类| 中文字幕一区不卡| 亚洲日韩欧美一区二区在线| 一区二区在线观看视频| 一区二区欧美精品| 亚洲高清免费在线| 亚洲成人av免费| 男人的j进女人的j一区| 美女国产一区二区| 国产一区二区三区免费看| 国产一区二区三区四| 国产成人免费网站| 99精品欧美一区二区三区综合在线| fc2成人免费人成在线观看播放| 99re视频精品| 欧美日韩国产美女| 欧美一区二区在线观看| 精品国产在天天线2019| 欧美激情资源网| 一区二区在线看| 美国一区二区三区在线播放| 久久疯狂做爰流白浆xx| 国产91丝袜在线观看| 91麻豆精品在线观看| 高清免费成人av| 豆国产96在线|亚洲| 色综合久久久久网| 91麻豆精品国产91久久久久久久久 | 视频一区中文字幕国产| 美腿丝袜亚洲综合| 国产高清不卡二三区| 成人午夜视频在线| 欧美色欧美亚洲另类二区| 91精品国产入口| 久久精品一区四区| 亚洲一区二区三区在线看| 亚洲午夜激情网页| 狠狠久久亚洲欧美| 色综合中文字幕| 日韩欧美电影一区| 中文字幕一区在线观看视频| 亚洲综合在线视频| 男女男精品网站| 顶级嫩模精品视频在线看| 欧美日韩性生活| 久久伊人蜜桃av一区二区| 亚洲另类一区二区| 精品在线观看免费| 欧美最新大片在线看| 久久日韩粉嫩一区二区三区| 亚洲最新在线观看| 成人性生交大片免费看中文 | 午夜伊人狠狠久久| jizzjizzjizz欧美| 久久久不卡网国产精品二区| 午夜av一区二区三区| 91亚洲精品久久久蜜桃网站 | 亚洲一区二区三区视频在线播放| 国产一区不卡在线| 欧美疯狂做受xxxx富婆| 亚洲欧洲av另类| 成人avav在线| 国产亚洲精品免费| 国产一区二区精品久久99| 日韩视频一区二区三区在线播放| 一区二区高清视频在线观看| 成人av在线观| 国产精品五月天| 国产乱人伦精品一区二区在线观看| 91麻豆精品国产| 亚洲成av人片| 91美女蜜桃在线| 国产亚洲精品bt天堂精选| 爽好多水快深点欧美视频| 高清在线成人网| 欧美性极品少妇| 午夜欧美一区二区三区在线播放| 国产精品一二三区在线| 国产日韩精品一区| 视频一区视频二区中文字幕|