校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > python 爬取國內小說網站

python 爬取國內小說網站

熱門標簽:地圖標注自己和別人標注區別 孝感營銷電話機器人效果怎么樣 ai電銷機器人的優勢 商家地圖標注海報 海外網吧地圖標注注冊 騰訊地圖標注沒法顯示 打電話機器人營銷 南陽打電話機器人 聊城語音外呼系統

原理先行

作為一個資深的小說愛好者,國內很多小說網站如出一轍,什么 🖊*閣啊等等,大都是 get 請求返回 html 內容,而且會有標志性的dl>dd>等標簽。
所以大概的原理,就是先 get 請求這個網站,然后對獲取的內容進行清洗,寫進文本里面,變成一個 txt,導入手機,方便看小說。

實踐篇

之前踩過一個坑,一開始我看了幾頁小說,大概小說的內容網站是https://www.xxx.com/小說編號/章節編號.html,一開始看前幾章,我發現章節編號是連續的, 于是我一開始想的就是記住起始章節編號,然后在循環的時候章節編號自增就行,后面發現草率了,可能看個 100 章之后,章節列表會出現斷層現象,這個具體為啥 還真不知道,按理說小說編號固定,可以算是一個數據表,那里面的章節編號不就是一個自增 id 就完了嘛?有懂王可以科普一下!
所以這里要先獲取小說的目錄列表,并把目錄列表洗成一個數組方便我們后期查找!getList.py文件:

定義一個請求書簽的方法

# 請求書簽地址
def req():
    url = "https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

將獲取到的內容提取出(id:唯一值/或第 X 章小說)(name:小說的章節名稱)(key:小說的章節 id)

# 定義一個章節對象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 轉換成書列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("/dt>",html)[2]
    html = re.split("/dl>",html)[0]
    htmlList = re.split("/dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 獲取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章節
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)/a>',i)
            else :
                key = key + 1
            # 獲取名字
            # lsname = re.findall(r'.html">(.+?)/a>',i)[0]
            # name = re.sub(',',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)/a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

注意一下我:如果你從別的語言轉 py,第一次寫object對象可能會比較懵,沒錯因為他的object是一個class,這里我創建的對象就是{id,key,name}但是你寫入 txt 的時候還是要getString,所以后面想想我直接寫個{id:xxx,name:xxx,key:xxx}的字符串不就完了,還弄啥class,后面還是想想給兄弟盟留點看點,就留著了

最后寫入 txt 文件

# 寫入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 這里不能寫list,要先轉字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('寫入成功')

# 大概寫完的txt是這樣的
id:3798160,name:第1章 孫子,我是你爺爺,key:1
id:3798161,name:第2章 孫子,等等我!,key:2
id:3798162,name:第3章 天上掉下個親爺爺,key:3
id:3798163,name:第4章 超級大客戶,key:4
id:3798164,name:第5章 一張退婚證明,key:5

ok ! Last one
這里已經寫好了小說的目錄,那我們就要讀取小說的內容,同理

先寫個請求

# 請求內容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

讀取我們剛剛保存的目錄

def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 這里按行讀取,讀取完后line是個數組
    line = f.readlines()
    f.close()
    return line

定義好一個清洗數據的規則

contextRule = r'div class="content">(.+?)script>downByJs();/script>'
titleRule = r'h1>(.+?)/h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('div id="content" class="showtxt">',html)[1]
    context = re.split('/div>',context)[0]
    context = re.sub('nbsp;|\r|\n','',context)
    textList = re.split('br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--寫入成功'%(title))

再寫入文件

def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

最后當然是串聯起來啦

def getTxt():
    # 默認參數配置
    startNum = 1261 # 起始章節
    endNum = 1300 # 結束章節
    # 開始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum  startNum:
        print('結束條數必須大于開始條數')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

完整代碼

getList.py

import requests
import re

# 請求書簽地址
def req():
    url = "https://www.24kwx.com/book/4/4020/"
    strHtml = requests.get(url)
    return strHtml.text

# 定義一個章節對象
class Xs(object):
    def __init__(self,id,key,name):
        self._id = id
        self._key = key
        self._name = name

    @property
    def id(self):
        self._id
    @property
    def key(self):
        self._key
    @property
    def name(self):
        self._name

    def getString(self):
        return 'id:%s,name:%s,key:%s' %(self._id,self._name,self._key)

# 轉換成書列表
def tranceList():
    key = 0
    name = ""
    xsList = []
    idrule = r'/4020/(.+?).html'
    keyrule = r'第(.+?)章'
    html = req()
    html = re.split("/dt>",html)[2]
    html = re.split("/dl>",html)[0]
    htmlList = re.split("/dd>",html)
    for i in htmlList:
        i = i.strip()
        if(i):
            # 獲取id
            id = re.findall(idrule,i)[0]
            lsKeyList = re.findall(keyrule,i)
            # 如果有章節
            if len(lsKeyList) > 0 :
                key = int(lsKeyList[0])
                lsname = re.findall(r'章(.+?)/a>',i)
            else :
                key = key + 1
            # 獲取名字
            # lsname = re.findall(r'.html">(.+?)/a>',i)[0]
            # name = re.sub(',',' ', lsname, flags=re.IGNORECASE)
            name = re.findall(r'.html">(.+?)/a>',i)[0]
            xsobj = Xs(id,key,name)
            xsList.append(xsobj.getString())
    writeList(xsList)

# 寫入到文本
def writeList(list):
    f = open("xsList.txt",'w',encoding='utf-8')
    # 這里不能寫list,要先轉字符串 TypeError: write() argument must be str, not list
    f.write('\n'.join(list))
    print('寫入成功')


def main():
    tranceList()

if __name__ == '__main__':
    main() 

writeTxt.py

import requests
import re
import time


# 請求內容地址
def req(id):
    url = "https://www.24kwx.com/book/4/4020/"+id+".html"
    strHtml = requests.get(url)
    return strHtml.text

def getList():
    f = open("xsList.txt",'r', encoding='utf-8')
    # 這里按行讀取
    line = f.readlines()
    f.close()
    return line

contextRule = r'div class="content">(.+?)script>downByJs();/script>'
titleRule = r'h1>(.+?)/h1>'
def getcontext(objstr):
    xsobj = re.split(",",objstr)
    id = re.split("id:",xsobj[0])[1]
    name = re.split("name:",xsobj[1])[1]
    html = req(id)
    lstitle = re.findall(titleRule,html)
    title = lstitle[0] if len(lstitle) > 0 else name
    context = re.split('div id="content" class="showtxt">',html)[1]
    context = re.split('/div>',context)[0]
    context = re.sub('nbsp;|\r|\n','',context)
    textList = re.split('br />',context)
    textList.insert(0,title)
    for item in textList :
        writeTxt(item)
    print('%s--寫入成功'%(title))

def writeTxt(txt):
    if txt :
        f = open("nr.txt",'a',encoding="utf-8")
        f.write(txt+'\n')

def getTxt():
    # 默認參數配置
    startNum = 1261 # 起始章節
    endNum = 1300 # 結束章節
    # 開始主程序
    f = open("nr.txt",'w',encoding='utf-8')
    f.write("")
    if endNum  startNum:
        print('結束條數必須大于開始條數')
        return
    allList = getList()
    needList = allList[startNum-1:endNum]
    for item in needList:
        getcontext(item)
        time.sleep(0.2)
    print("全部爬取完成")

    
def main():
    getTxt()

if __name__ == "__main__":
    main()

以上就是python 爬取國內小說網站的詳細內容,更多關于python 爬取小說網站的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python爬蟲入門教程02之筆趣閣小說爬取
  • python 爬取小說并下載的示例
  • python爬取”頂點小說網“《純陽劍尊》的示例代碼
  • Python爬取365好書中小說代碼實例
  • Python實現的爬取小說爬蟲功能示例
  • Python scrapy爬取起點中文網小說榜單
  • python爬蟲之爬取筆趣閣小說升級版

標簽:楊凌 揚州 迪慶 牡丹江 南寧 聊城 撫州 六盤水

巨人網絡通訊聲明:本文標題《python 爬取國內小說網站》,本文關鍵詞  python,爬取,國內,小說,網站,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 爬取國內小說網站》相關的同類信息!
  • 本頁收集關于python 爬取國內小說網站的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    亚洲一区二区av在线| 2024国产精品| 午夜精品福利久久久| 欧美性欧美巨大黑白大战| 亚洲精品精品亚洲| 欧美精品粉嫩高潮一区二区| 日韩黄色在线观看| xfplay精品久久| 成人免费视频播放| 亚洲综合视频在线观看| 久久精品亚洲国产奇米99| 国产91精品在线观看| 一区精品在线播放| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 亚洲综合免费观看高清完整版 | 中文字幕一区二区三| fc2成人免费人成在线观看播放| 亚洲乱码国产乱码精品精的特点| 在线免费精品视频| 精品一区二区三区免费| 国产精品每日更新| 欧美日韩国产精品自在自线| 久久精品国产第一区二区三区| 久久综合五月天婷婷伊人| 99久久伊人网影院| 亚瑟在线精品视频| 国产欧美日韩不卡| 精品婷婷伊人一区三区三| 国内精品在线播放| 亚洲精品你懂的| 精品国产sm最大网站免费看| 91色在线porny| 麻豆久久久久久久| 中文字幕亚洲一区二区va在线| 91精品国产综合久久久久久久久久| 国产乱对白刺激视频不卡| 亚洲精品成人在线| 欧美精品一区视频| 欧美日韩高清不卡| 成人av资源在线观看| 麻豆freexxxx性91精品| 亚洲人亚洲人成电影网站色| 中文一区二区在线观看| 欧美一区二区三区在线| 99久久精品免费精品国产| 久久99精品国产91久久来源| 一区二区三区欧美| 亚洲国产电影在线观看| 日韩欧美亚洲国产另类| 欧美性猛交xxxxxx富婆| 成人免费毛片app| 久久99热99| 日韩精品乱码免费| 亚洲精品乱码久久久久久| 国产三级精品三级在线专区| 日韩天堂在线观看| 欧美日韩一卡二卡| 91久久一区二区| 99久久国产综合精品女不卡| 国产一区二区看久久| 美洲天堂一区二卡三卡四卡视频 | 亚洲精品一区二区三区在线观看| 色八戒一区二区三区| 97久久人人超碰| 国产不卡视频一区| 国产成人在线免费| 精品一二线国产| 久久99精品久久久久久久久久久久| 亚洲午夜电影网| 一区二区三区在线播放| 亚洲天堂av老司机| 日韩毛片高清在线播放| 国产精品理伦片| 国产精品入口麻豆原神| 国产精品天天看| 中文字幕第一区第二区| 偷拍与自拍一区| 视频一区二区中文字幕| 日韩中文字幕一区二区三区| 午夜精品久久久久久久99樱桃| 五月天网站亚洲| 日韩国产精品久久久久久亚洲| 丝袜诱惑制服诱惑色一区在线观看| 午夜免费久久看| 日本不卡不码高清免费观看| 日本午夜精品视频在线观看| 美女视频黄 久久| 国产精品亚洲专一区二区三区| 国产成人自拍在线| 99精品视频在线播放观看| 在线精品视频一区二区| 欧美久久高跟鞋激| 日韩精品最新网址| 欧美激情一区二区三区| 亚洲人妖av一区二区| 亚洲444eee在线观看| 日韩不卡一区二区| 国产精品亚洲第一| 色视频欧美一区二区三区| 欧美日韩黄视频| 精品久久久久久无| 综合色天天鬼久久鬼色| 亚洲成人精品影院| 国产乱人伦偷精品视频免下载| 99视频国产精品| 欧美一区二区三区啪啪| 久久久美女毛片| 亚洲最快最全在线视频| 免费精品视频最新在线| 成人开心网精品视频| 欧美日韩一区小说| 国产亚洲一区二区三区在线观看 | 国产欧美日韩视频一区二区| 亚洲欧美日韩国产综合| 免费成人av在线| av一区二区不卡| 欧美一区二区三区精品| 国产精品女主播在线观看| 亚洲一区二区三区视频在线播放| 久久99国内精品| 欧美最猛性xxxxx直播| 欧美精品一区二区三区久久久| 18成人在线观看| 久草在线在线精品观看| 色综合天天性综合| www久久久久| 亚洲成人自拍一区| 成人黄色软件下载| 日韩欧美成人激情| 亚洲午夜精品17c| av一二三不卡影片| 欧美电影免费观看完整版| 一区二区三区视频在线看| 久久er精品视频| 欧美日韩三级一区二区| 国产日产欧产精品推荐色| 青青草国产成人av片免费| 99精品国产一区二区三区不卡| 日韩精品一区二| 丝袜亚洲另类欧美综合| 99久久国产免费看| 亚洲mv在线观看| 91女厕偷拍女厕偷拍高清| 久久久亚洲国产美女国产盗摄 | 99久久久国产精品| 亚洲精品在线观看视频| 五月激情丁香一区二区三区| 91在线视频18| 国产精品日韩成人| 粉嫩蜜臀av国产精品网站| 精品少妇一区二区三区| 三级影片在线观看欧美日韩一区二区 | 成人成人成人在线视频| 2014亚洲片线观看视频免费| 美女高潮久久久| 日韩欧美一区中文| 午夜精品在线看| 欧美日韩一区三区| 亚洲r级在线视频| 欧美美女视频在线观看| 午夜视频在线观看一区二区| 欧美亚洲日本一区| 一区二区免费在线| 欧美视频在线观看一区| 亚洲一区二区三区四区在线| 色婷婷综合久久久久中文| 亚洲精品欧美激情| 色婷婷av久久久久久久| 亚洲精品自拍动漫在线| 色婷婷综合久久久| 亚洲一二三区不卡| 欧美日韩成人在线一区| 日韩av中文字幕一区二区| 日韩免费在线观看| 激情av综合网| 国产午夜亚洲精品午夜鲁丝片| 国产精品1024| 综合久久久久久久| 91久久国产综合久久| 亚洲国产乱码最新视频 | 在线免费亚洲电影| 亚洲aⅴ怡春院| 日韩视频免费直播| 国内成人免费视频| 日本一区二区在线不卡| 91网站视频在线观看| 国产在线观看免费一区| 久久久久久久久久久久久久久99| 风流少妇一区二区| 亚洲综合一二三区| 日韩欧美一区在线| 成人免费视频caoporn| 一区二区三区不卡视频| 91精品免费在线观看| 国产精品一二三区在线| 亚洲欧美偷拍三级| 日韩欧美中文一区| www.亚洲精品| 欧美aaaaa成人免费观看视频| 亚洲精品在线观|