校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > python解析PDF程序代碼

python解析PDF程序代碼

熱門標(biāo)簽:無錫客服外呼系統(tǒng)一般多少錢 百度地圖標(biāo)注位置怎么修改 洪澤縣地圖標(biāo)注 地圖標(biāo)注視頻廣告 北京電信外呼系統(tǒng)靠譜嗎 高德地圖標(biāo)注是免費的嗎 梅州外呼業(yè)務(wù)系統(tǒng) 老人電話機(jī)器人 大連crm外呼系統(tǒng)

說在前面

和word的文本相比PDF更類似于一張張圖片,圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中,方便之后的分析。

添加依賴

在python的環(huán)境中安裝PDFminer3k,不要裝錯了,一開始我裝的是PDFminer,結(jié)果有幾個包不能用
pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
# pip3 install pdfminer3k

import os
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice


def read_pdf(pdf_name, result_name):
    # 以二進(jìn)制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對象來創(chuàng)建一個pdf文檔分析器
    parser = PDFParser(fp)
    # 創(chuàng)建一個pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒有密碼 就創(chuàng)建一個空的字符串
    doc.initialize('')
    # 檢測文檔是否提供txt轉(zhuǎn)換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創(chuàng)建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創(chuàng)建一個PDF設(shè)備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創(chuàng)建一個PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(result_name, "w", encoding="u8") as fd_out:
        # 循環(huán)遍歷列表,每次處理一個page的內(nèi)容
        for i, page in enumerate(doc.get_pages(), 1):
            index = "===========《第{}頁》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁面的LTPage對象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)

if __name__ == '__main__':

    # 獲取讀取文件夾
    filePath = '../PDFfile'
    #遍歷文件夾
    for i,j,k in os.walk(filePath):
        for m in k:
            # 格式化輸出的名稱和地址
            result = '../TextFile/' + m[:-4] + '.txt'
            # 格式化源文件路徑
            fileName = i + '/' + m
            # 調(diào)用函數(shù)解析
            read_pdf(fileName, result)

參考以下代碼內(nèi)容:python 讀取pdf文本內(nèi)容

#!/usr/bin/env python3
#-*- coding:utf-8 -*-
# pip3 install pdfminer3k
  
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.pdfdevice import PDFDevice
 
def read_pdf(pdf_name, result_name):
    # 以二進(jìn)制讀模式打開
    fp = open(pdf_name, 'rb')
    # 用文件對象來創(chuàng)建一個pdf文檔分析器
    parser = PDFParser(fp)
    # 創(chuàng)建一個pdf文檔
    doc = PDFDocument()
    # 連接分析器 與文檔對象
    parser.set_document(doc)
    doc.set_parser(parser)
    # 提供初始密碼,如果沒有密碼 就創(chuàng)建一個空的字符串
    doc.initialize('')
    # 檢測文檔是否提供txt轉(zhuǎn)換,不提供就拋出異常
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    # 創(chuàng)建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創(chuàng)建一個PDF設(shè)備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創(chuàng)建一個PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
     
    with open(result_name,"w",encoding="u8") as fd_out:
        # 循環(huán)遍歷列表,每次處理一個page的內(nèi)容
        for i,page in enumerate(doc.get_pages(),1):
            index = "===========《第{}頁》===========".format(i)
            print(index)
            fd_out.write(index + "\n")
            interpreter.process_page(page)
            # 接受該頁面的LTPage對象
            layout = device.get_result()
            for x in layout:
                # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox,
                # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性
                if not isinstance(x, LTTextBoxHorizontal):
                    continue
                results = x.get_text()
                print(results)
                fd_out.write(results)   
                       
if __name__ == '__main__':
    pdf_name = 'test.pdf'
    result = 'test.txt'
    read_pdf(pdf_name, result)

以上就是python解析PDF的詳細(xì)內(nèi)容,更多關(guān)于python解析PDF的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF
  • Python合并多張圖片成PDF
  • Python提取PDF指定內(nèi)容并生成新文件
  • 詳解用Python把PDF轉(zhuǎn)為Word方法總結(jié)
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實現(xiàn)給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個pdf的參考示例

標(biāo)簽:吉林 怒江 長春 岳陽 洛陽 安慶 泉州 清遠(yuǎn)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python解析PDF程序代碼》,本文關(guān)鍵詞  python,解析,PDF,程序,代碼,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python解析PDF程序代碼》相關(guān)的同類信息!
  • 本頁收集關(guān)于python解析PDF程序代碼的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    成人国产精品免费观看| 国产成人亚洲综合a∨婷婷| 精品成人在线观看| 91啪九色porn原创视频在线观看| 美女视频一区二区| 亚洲国产精品久久艾草纯爱| 国产日韩亚洲欧美综合| 欧美美女一区二区在线观看| av日韩在线网站| 国产精品一区二区在线观看不卡 | 欧美区一区二区三区| 国产成人av一区| 美女国产一区二区三区| 亚洲一本大道在线| 亚洲女与黑人做爰| 久久久不卡网国产精品二区| 日韩午夜激情视频| 欧美精品乱码久久久久久| 99久久777色| 成人丝袜高跟foot| 国产在线精品一区二区不卡了 | 免费成人深夜小野草| 亚洲综合免费观看高清在线观看| 日本一区二区视频在线观看| 日韩午夜激情av| 欧美人成免费网站| 欧洲亚洲国产日韩| 在线一区二区三区四区五区| 99久久精品费精品国产一区二区| 国产99精品视频| 国产91精品一区二区| 国产一区二区三区蝌蚪| 国产一区二区三区四| 国产一区二区毛片| 国产一区二区三区久久久 | 一本大道久久精品懂色aⅴ| 成人一区二区三区中文字幕| 国产99久久久国产精品免费看| 国产成人在线看| 福利一区福利二区| 成人美女视频在线观看18| www.欧美日韩国产在线| 91麻豆精品一区二区三区| 91视频精品在这里| 91成人国产精品| 欧美日韩在线观看一区二区| 欧美日本韩国一区二区三区视频| 91精品国产黑色紧身裤美女| 日韩亚洲欧美综合| 久久嫩草精品久久久精品| 国产精品视频看| 亚洲女同女同女同女同女同69| 一区二区三区日韩精品视频| 手机精品视频在线观看| 精品一二三四区| 国产suv精品一区二区6| 色中色一区二区| 制服.丝袜.亚洲.中文.综合| 2023国产精华国产精品| 中文字幕日韩欧美一区二区三区| 依依成人综合视频| 美腿丝袜亚洲三区| 国产成人鲁色资源国产91色综| 91视频一区二区| 欧美一区二区在线观看| 亚洲精品一区二区三区在线观看| 国产精品成人一区二区三区夜夜夜 | 性感美女久久精品| 另类成人小视频在线| 欧美色图12p| 欧美日韩精品一区二区三区蜜桃| 日韩视频免费观看高清完整版| 久久久国产午夜精品| 亚洲免费av观看| 美女性感视频久久| 97精品国产97久久久久久久久久久久| 精品视频999| 久久男人中文字幕资源站| 曰韩精品一区二区| 麻豆91在线观看| 91色在线porny| 日韩欧美在线影院| 亚洲男人都懂的| 毛片av中文字幕一区二区| 99国产精品视频免费观看| 日韩一卡二卡三卡| 亚洲欧洲三级电影| 免费成人av在线| 日本大香伊一区二区三区| 久久免费电影网| 亚洲午夜精品一区二区三区他趣| 国产不卡在线播放| 日韩一区二区中文字幕| 亚洲免费在线看| 国产盗摄精品一区二区三区在线 | 91久久免费观看| 久久久久久久久久电影| 日韩精品亚洲一区| 91影院在线观看| 久久久久高清精品| 老司机精品视频在线| 欧美性大战久久久久久久蜜臀| 国产日韩欧美一区二区三区乱码| 日本欧美大码aⅴ在线播放| 91小视频在线| 国产欧美一区二区在线| 激情深爱一区二区| 欧美一区二区三级| 午夜伊人狠狠久久| 日本韩国一区二区三区视频| 亚洲国产精品高清| 国产一区二区精品在线观看| 欧美一区二区大片| 亚洲v中文字幕| 欧美午夜寂寞影院| 亚洲综合在线五月| 色哟哟国产精品免费观看| 国产亚洲福利社区一区| 韩国女主播成人在线观看| 欧美一级欧美一级在线播放| 无吗不卡中文字幕| 欧美撒尿777hd撒尿| 亚洲福利视频导航| 91成人免费在线| 一区二区在线看| 99精品国产91久久久久久| 国产精品黄色在线观看| 丰满放荡岳乱妇91ww| 国产色产综合色产在线视频| 国产精品亚洲一区二区三区在线 | 久久理论电影网| 韩国一区二区三区| 26uuu另类欧美亚洲曰本| 九九九精品视频| 精品999在线播放| 国产一区二区三区黄视频| 久久免费的精品国产v∧| 国产成人精品亚洲午夜麻豆| 亚洲国产高清aⅴ视频| 国产suv精品一区二区883| 国产精品拍天天在线| 91美女片黄在线观看| 亚洲国产日韩av| 欧美日韩中字一区| 日本午夜一本久久久综合| 久久先锋资源网| 成人午夜在线视频| 亚洲日本电影在线| 欧美亚洲国产一区二区三区va| 天天操天天综合网| 日韩精品一区在线观看| 国产精品自拍在线| 18成人在线视频| 欧美日本免费一区二区三区| 久久国产精品色婷婷| 日本一区二区不卡视频| 色呦呦网站一区| 日本不卡中文字幕| 久久影院电视剧免费观看| 97精品视频在线观看自产线路二| 亚洲午夜精品网| 精品久久久久久最新网址| 成人黄色在线网站| 亚洲成人午夜电影| 久久综合久色欧美综合狠狠| av不卡免费电影| 五月天视频一区| 久久综合色婷婷| 99久久99久久精品国产片果冻| 亚洲成人久久影院| 国产视频一区不卡| 欧美午夜片在线观看| 国产一区欧美日韩| 一区二区三区色| 欧美成人a∨高清免费观看| www.66久久| 久久国产婷婷国产香蕉| 亚洲欧美日韩人成在线播放| 日韩欧美亚洲一区二区| 99麻豆久久久国产精品免费优播| 首页国产丝袜综合| 中文字幕日本不卡| 精品国产网站在线观看| 一本到不卡免费一区二区| 激情图区综合网| 亚洲va天堂va国产va久| 国产欧美日韩三区| 日韩一卡二卡三卡国产欧美| 色呦呦网站一区| 国产精品资源网| 丝袜脚交一区二区| 国产精品欧美久久久久无广告 | 日韩—二三区免费观看av| 中文在线资源观看网站视频免费不卡 | 亚洲色图在线视频| 久久久久久久网| 欧美一级免费观看| 欧美视频你懂的| 91视频在线看| 粉嫩蜜臀av国产精品网站|