久热国产精品视频,合欧美一区二区三区,亚洲人xxxx

主頁 > 知識庫 > python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

第一、幾種常用方法

讀取TXT文檔：urlopen()

讀取PDF文檔：pdfminer3k

第二、亂碼問題

(1)、

from urllib.request import urlopen
#訪問wiki內容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

輸出的結果中出現亂碼原因：

計算機只能處理0和1兩個數字，所以想要處理文本，必須把文本變成0和1這樣的數字，最早的計算機使用八個0和1表示一個字節，所以最大能夠表示整數是255=11111111.如果想要表示更大的數，必須使用更多的字節。

由于計算機是美國人發明的，所以最早只有127個字符被編寫進計算機，即常見的阿拉伯數字，字母大小寫，以及鍵盤上的符號。此編碼被稱為ASCII編碼，比如大寫字母A的ASCII編碼是65,65再被轉換二進制01000001，即是計算機處理的東西。

顯然，ASCII不能表示中文，故中國制定了自己的GB2312編碼，并且兼容ASCII編碼。問題是：使用GB2312編碼的慕課網三個字，假設編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示，日文中的616263編碼成其他字符，打開后意思出錯。

解決方法：

國際上的unicode編碼，整合全世界所有編碼。故unicode編碼的內容在任一臺計算機用unicode仍正常打開

又對于A,ASCII編碼為01000001，Unicode編碼：0000000001000001此時浪費空間

故出現UTF-8編碼：01000001此時用兩個八位存儲中文。

(2)、記事本使用unicode編碼，將記事本存到計算機時，將轉化為utf-8儲存。

在計算機中打開文本時，將轉化為unicode編碼

存儲原因：使用utf-8儲存節省空間，使用unicode打開保證最大的兼容

(3)、服務器讀取uncode編碼的文檔，轉化為utf-8格式傳給瀏覽器。因為網絡帶寬昂貴，轉化為了減少負擔。

(4)、python3字符串默認使用Unicode編碼，所以python3支持多種語言

以Unicode表示的str通過encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼，遇到ASCII碼表沒有的字符會以\x##表示，此時只用‘\x##'.decode('utf-8')即可

(5)、解決方法

from urllib.request import urlopen
#訪問wiki內容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安裝

法一：

(1)、進入網址直接下載并解壓：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運行命令行窗口，進入軟件解壓縮位置，運行python setup.py install

法二：

(3)、直接在pycharm中安裝

(4)、讀取pdf過程：首先創建一個分析器pdfparser和文檔對象pdfdocument，并通過兩個方法相互關聯，然后調用文檔對象的初始化方法（可以傳參數），此時資源內容被加載到文檔對象中。

創建資源管理器和參數分析器，然后創建聚合器(整合資源管理器和參數分析器)，通過聚合器創建解釋器（對pdf文檔進行編碼，解釋成python能識別的格式）

(5)、讀取pdf文檔：通過文檔對象的get_pages()方法得到pdf每一頁的內容，通過解釋器的process_page()方法讀取一頁一頁。

(6)、實例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#獲得文檔對象,以二進制讀方式打開
fp = open("naacl06-shinyama.pdf", "rb")
#創建一個與文檔關聯的分析器
parser = PDFParser(fp)
#創建一個pdf文檔的對象
doc = PDFDocument()
#連接解釋器與文檔對象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文檔,如果文檔有密碼，寫與此。
doc.initialize("")
#創建pdf資源管理器
resource = PDFResourceManager()
#參數分析器
laparam = LAParams()
#創建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#創建pdf頁面解釋器
interpreter = PDFPageInterpreter(resource, device)
#使用文檔對象得到頁面的集合
for page in doc.get_pages():
  #使用頁面解釋器讀取
  interpreter.process_page(page)
  #使用聚合器來獲得內容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于讀取網站上pdf內容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補充內容：

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

Python爬蟲爬取全球疫情數據并存儲到mysql數據庫的步驟
Python爬取騰訊疫情實時數據并存儲到mysql數據庫的示例代碼
MySQL和Python交互的示例
配置python連接oracle讀取excel數據寫入數據庫的操作流程
Python 對Excel求和、合并居中的操作
如何用python合并多個excel文件
python基于pyppeteer制作PDF文件
python操作mysql、excel、pdf的示例

標簽：文山懷化昆明浙江梅州西寧錫林郭勒盟石家莊

巨人網絡通訊聲明：本文標題《python 實現存儲數據到txt和pdf文檔及亂碼問題的解決》，本文關鍵詞 python,實現,存儲,數據,到,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《python 實現存儲數據到txt和pdf文檔及亂碼問題的解決》相關的同類信息！

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

第一、幾種常用方法讀取TXT文檔：urlopen() 讀取PDF文檔：pdfminer3k 第二、亂碼問題 (1)、 from urllib.request import urlopen#訪問wiki內容html = urlopen("https://en.wikipedia.org/robots.txt")print(html.read()) 輸出...

10-18

上海抗封電話外呼線路一企嗨,呼叫系統商家-解讀

一企嗨電話營銷系統 1．當前的電銷場景有哪些困擾？ 1）手機.卡頻繁被封，電銷業務難以啟動； 2）銷售人員號碼被標注，...

12-17

河南營銷電話機器人（智能營銷電話機器人）

本文目錄一覽： 1、什么是電話機器人?2、最近聽說電話機器人能幫助電話銷售，誰知道怎么樣？3、電話營銷機器人如何打電...

11-27

企業內部的SEO培訓如何才更有效果

對于一個組建不久的SEO團隊來說，日常的公司內部培訓自然少不了，然而有不少新人對這個行業了解甚少。再加上SEO工作的內...

10-19

廠址位置地圖怎么申請？百度怎樣申請廠址定位？

騰訊地圖怎么申請自己的位置？您好，請說明詳細地點名稱，地址信息，聯系電話(很重要)，標記準確位置并上傳照片及相關...

11-26

ai機器人外呼系統代理加盟（ai外呼機器人不好用）

本文目錄一覽： 1、有沒有哪種電話機器人可以做招商項目的啊？需求聯絡的合作方太多了，想要可以智能高效和客戶溝通的...

04-22

電腦外呼系統沒有錄音（電腦外呼系統沒有錄音

本文目錄一覽：1、電腦沒有錄音設備怎么辦。在線等，急求2、windows7體系電腦沒有錄音設備怎么辦3、電銷體系網絡電話撥打...

11-29

除了比爾蓋茨和貝索斯這些人也曾經成為全球首富

【騰訊編者按】比來，亞馬遜創始人杰夫·貝索斯(Jeff Bezos)在《福布斯》實時富豪排行榜上一度超過比爾·蓋茨(Bill Gates)成為...

10-16

小米電話自動機器人(小米電話自動機器人怎么關

未來| 展望前沿新技術5700 字 / 15 分鐘本文首發于航通社小米電話自動機器人，原創文章未經授權請勿轉載。航通社(ID:lifeis...

11-29

從奧運冠軍名字頻遭商標搶注說起

中國運動健兒在東京奧運會取得了許多優異成績，可大家在欣喜之余發現，全紅嬋、楊倩、汪順等多位奧運冠軍的姓名被搶注...

10-23

廣州防封網絡電話怎么樣？

與傳統電話相比，廣州防封網絡電話對硬件設備和線路的要求低，可以明顯降低企業電話安裝與維修的成本。當企業的部署...

10-26

辦理400客服電話400電話申請要選擇什么樣的服務商

400電話已成為企業的獨家客戶服務電話。它沒有線路優勢和多功能性，受到許多企業的青睞。目前，90%以上的企業將向在線...

01-13

工信部公示國家中小企業公共服務示范平臺名單 174家平臺入選

根據《國家中小企業公共服務示范平臺認定管理辦法》（工信部企業〔2017〕156號）、《關于推薦2017年度國家中小企業公共服...

10-13

WhatsApp成印度最受歡迎的安卓應用用戶達到900萬

【TechWeb報道】6月26日消息，據國外媒體報道，按照瑪麗·米克爾（Mary Meeker）上月發布的年度互聯網趨勢陳訴，WhatsApp是印度...

10-16

泰州客服外呼系統開發（客服外呼系統南牛網絡）

本文目錄一覽： 1、外呼體系若何措置賞罰？ 2、電銷外呼體系哪個好了？市道上的太多了！有可能推薦的嗎？ 3、外呼體系若...

11-26

企友通外呼系統服務（通信外呼系統）

本文目錄一覽： 1、企友通功用有哪些？2、企友通外呼體系報價多少？3、企友通怎么樣，好用嗎?4、企友通外呼體系包含哪些...

11-28

Oracle 18c新特性-PDB快照輪播(Snapshot Carousel)

Oracle 18c推出的一個新功能就是PDB快照輪播，最多可以創建8個pdb的快照，而這8個構成的一組快照就被稱作快照輪播。當達到第...

10-18

外呼系統：更換成SSD后安裝了系統，開機后總是出現下圖中這個東西，誰懂？

關于這個問題，其實和外呼更換的SSD固態硬盤沒有太大關系，而是您自己在進行系統重裝時沒有正確的進行系統版本設置，最...

12-14

智客電銷機器人（電銷智能機器人代理）

本篇文章給大家談談智客電銷機器人，以及電銷智能機器人代理對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。...

11-06

深圳防封電銷機器人批發網,電話營銷系統辦理商家-信譽保障

深圳防封電銷機器人批發網,電話營銷系統辦理商家外呼數據進行篩選;誰來呼是指，按照一定的規則將電話分配到某個坐席進...

12-17

品牌質量塑造是在品牌形成的全過程

品牌質量的優勢似乎是在產品進入消費環節才顯現出來的。但是品牌質量優勢的塑造卻在此之前早已經在設計．生產．銷售．...

10-23

電話機器人輪胎漏氣（2016機器人輪胎為什么不動）

*** 本文目錄一覽：1、輪胎經常漏氣怎么回事?2、輪胎漏氣怎么辦3、今天連續接到好幾個騷擾電話,一個機器人語音一直在說什...

07-15

邯鄲三亞電銷卡的簡單介紹

本篇文章給大家談談邯鄲三亞電銷卡，以及對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。本文目錄一覽：1、...

08-28

路燈安裝了物聯網卡，從此不僅僅只是照明（基于物聯網的智能路燈系統）

隨著社會的不斷發展，以及城市建設步伐的不斷加快，城市面積和城市人口不斷增加，這對于城市基礎設施提出了更高的要求...

11-07

北京電話銷售公司

5、客服在電話銷售中會遇到這些困難：【北京電話銷售公司】智能語音電話系統，可以主動外呼的電話機器人，可以自然人...

10-24

電銷外呼系統uk（電銷外呼系統怎么安裝）

今天給各位分享電銷外呼系統uk的知識，其中也會對電銷外呼系統怎么安裝進行解釋，如果能碰巧解決你現在面臨的問題，別...

08-28

雷石客服呼叫中心4007-766-667正式啟用

8月4日報道 2011年8月1日起，雷石公司call centre客服呼叫中心（4007-766-667）正式啟用！為了進一步節省客戶的呼叫費用，打造從...

10-19

400電話辦理流程是怎樣的？給企業帶來什么便利？

400電話現在已經得到了企業和客戶的高度認同，因為400電話不僅方便企業改善服務流程，提高客戶留存率。而且對于客戶而言...

04-06

簡單介紹Python虛擬環境及使用方法

目錄一、為什么需要虛擬環境？二、virtualenv 三、venv 四、pipenv 一、為什么需要虛擬環境？這里的環境，指的就是 Python 代...

10-18

中科院：讓創新的第一動力作用更加強勁

來源：人民日報創新是引領發展的第一動力。當前，新一輪科技革命和產業變革深入發展，我們必須堅持創新在我國現代化...

10-23

上海電銷卡辦理-三五電銷卡價格

上海電銷卡辦理-三五電銷卡價格巨人網絡通訊主營電銷卡、企業電銷卡、不封號電話卡、電銷系統、電銷軟件、高頻防封軟...

06-24

移動互聯網環境下App商標商品類似的侵權認定

在移動互聯網環境下，一款App所涉的商品類別較為廣泛，其不再局限于傳統行業商品或服務所指向的單一類別，而必然涉及有...

10-23

電銷團隊機制有哪些特點（電銷團隊架構）

本文目錄一覽： 1、團隊的特色？2、怎么辦理電銷團隊3、怎么做好電銷團隊建造4、什么是團隊機制？5、電銷團隊建造與辦理...

04-22

5G登陸世界舞臺這么久，表現到底如何，來看看各國5G網絡實測

韓國韓國一直是推廣5G網絡最為積極的國家之一，先前對于5G網絡的基礎設施的建設及也是在全球范圍內尋求合作，華為的...

10-13

中國聯通400電話官網聯通400電話暫停的原因

由于中國聯通的資費優勢和受眾群體相對全面，；電信的市場份額約為22%，因為資費相對昂貴。因此，相對而言，想要申請...

01-13

鄭州不標記電話群呼軟件特價-?今日推薦

鄭州不標記電話群呼軟件特價了解客戶，洞察市場，優化產品、服務、營銷方式：電銷機器人不僅擁有高效客戶的資料整理，...

01-15

選擇正規的400電話代理商400電話申請如何尋找正規代理商？這些方面要考慮!

一個好的400號碼可以讓你的客戶和潛在客戶更容易記住，讓企業的品牌價值不流失，提升企業形象，讓你的公司節省大量的宣...

01-13

網上營銷方式

2.銷售難找，離職率居高不下【網上營銷方式】除此之外還有一些O2O服務類通知等，智能外呼也可以代替人工進行通知。【網...

10-24

400電話如何辦理？全面解析辦理步驟和常見問題

400電話已經成為了很多企業的必備通訊方式，通過一個以“400”開頭的專屬號碼，可以方便快捷地實現企業與客戶之間的溝通...

07-21

Docker部署springboot項目實例解析

這篇文章主要介紹了docker部署springboot項目實例解析,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參...

10-16

廣州電話機器人效果（廣州女性機器人體驗店）

本文目錄一覽： 1、電話機器人有什么用?2、電話機器人效果好嗎？3、電話機器人使用效果怎么樣電話機器人有什么用? 電話...

11-27

信陽語音外呼系統供應商（中信銀行電話）

本文目次一覽： 1、智能德律風外呼體系哪家的對照好用？ 2、而今外呼體系哪家公司做的對照好？ 3、外呼體系靠不靠譜，哪...

11-25

襄陽全自動外呼系統運營商（襄陽全自動外呼系統運營商電話）

本篇文章給咱們談談襄陽全主動外呼體系運營商，以及襄陽全主動外呼體系運營商電話對應的知識點，期望對各位有所幫忙，...

11-06

400電話后臺密碼忘記了怎么辦？

【400電話后臺密碼忘記了怎么辦？】密碼設置時間太久，或是修改太多次，導致400電話后臺密碼忘記，無法登入后臺怎么辦？...

11-07

四川防封電銷卡購買

本公司經歷多年的運營管理優化，秉持“服務鍥而不舍，品質力臻卓越”的服務理念，為每一位客戶提供專業、優質的服務。...

12-04

寧波外呼系統單價（外呼系統收費標準）

本篇文章給大家談談寧波外呼系統單價，以及外呼系統收費標準對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。...

11-07

400電話的申請流程及注意事項-400電話的申請

400電話的申請流程及注意事項-400電話的申請在商業領域，一個品牌能否為廣大用戶提供優質的售后服務，直接關系到其未來...

08-14

連云港ai電銷機器人價格（ai電銷機器人哪家好）

本文目錄一覽： 1、電銷機器人多少錢？2、關于AI人工智能電銷機器人怎樣收費？3、電銷機器人多少錢一臺，詳細是怎樣收費...

04-23

室內空氣污染也需要物聯網技術

污染問題在外太空更嚴重，但在地球上也是相當糟糕。室內空氣中無色無味的毒素和化學物質容易患病。美國過敏專家估計，...

10-13

新興產業遇人才瓶頸外包“第一校”力補人才缺口

人才緊缺正成為新興的服務外包產業發展的最大瓶頸。中國第一所專門的服務外包學院——園區軟件與服務外包職業學院今年...

10-22

怎樣安裝400電話400電話怎樣安裝更便宜？怎樣安裝更方便？

400電話是一個虛擬號碼，需要綁定手機或固定電話，所以不需要安裝設備。如果廣西企業想辦理400電話，可以選擇巨人科技...

01-12

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

10-18

本頁收集關于python 實現存儲數據到txt和pdf文檔及亂碼問題的解決的相關信息資訊供網民參考！

推薦文章

上一篇：Python 制作詞云的WordCloud參數用法說明

下一篇：python pdfkit 中文亂碼問題的解決方案

一起分享吧

校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

python 實現存儲數據到txt和pdf文檔及亂碼問題的解決

第一、幾種常用方法

第二、亂碼問題

輸出的結果中出現亂碼原因：

解決方法：

第三、pdfminer3k安裝

法一：

法二：