校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > python 如何做一個識別率百分百的OCR

python 如何做一個識別率百分百的OCR

熱門標簽:所得系統電梯怎樣主板設置外呼 朝陽手機外呼系統 地圖標注面積 北京電銷外呼系統加盟 佛山400電話辦理 市場上的電銷機器人 北瀚ai電銷機器人官網手機版 儋州電話機器人 小蘇云呼電話機器人

寫在前面

當然這里說的百分百可能有點夸張,但其實想象一下,游戲里面的某個窗口的字符就是那種樣子,不會變化的。而且識別的字符可能也不需要太多。中文有大幾千個常用字,還有各種符號,其實都不需要。

這里針對的場景很簡單,主要是有以下幾點:

  • 識別的字符不多:只要識別幾十個常用字符即可,比如說26個字母,數字,還有一些中文。
  • 背景統一,字體一致:我們不是做驗證碼識別,我們要識別的字符都是清晰可見的。
  • 字符和背景易分割:一般來說就是對圖片灰度化之后,黑底白字或者白底黑字這種。

技術棧

這里用到的主要就是python+opencv了。

  • python3
  • opencv-python

環境主要是以下的庫:

pip install opencv-python
pip install imutils
pip install matplotlib

實現思路

首先看下圖片的灰度圖。

第一步:二值化,將灰度轉換為只有黑白兩種顏色。

第二步:圖像膨脹,因為我們要通過找輪廓算法找到每個字符的輪廓然后分割,如果是字符還好,中文有很多左右偏旁,三點水這種無法將一個整體進行分割,這里通過膨脹將中文都黏在一起。

第三步:找輪廓。

第四步:外接矩形。我們需要的字符是一個矩形框,而不是無規則的。

第五步:過濾字符,這里比如說標點符號對我來說沒用,我通過矩形框大小把它過濾掉。

第六步:字符分割,根據矩形框分割字符。

第七步:構造數據集,每一類基本上放一兩張圖片就可以。

第八步:向量搜索+生成結果,根據數據集的圖片,進行向量搜索得到識別的標簽。然后根據圖片分割的位置,對識別結果進行排序。

具體實現

讀取圖片

首先先讀取待識別的圖片。

import cv2
import numpy as np
from matplotlib import pyplot as plt
from matplotlib.colors import NoNorm
import imutils
from PIL import Image


img_file = "test.png"
im = cv2.imread(img_file, 0)

使用matplotlib畫圖結果如下:

二值化

在進行二值化之前,首先進行灰度分析。

灰度值是在0到255之間,0代表黑色,255代表白色。可以看到這里背景色偏黑的,基本集中在灰度值30,40附近。而字符偏白,大概在180灰度這里。

這里選擇100作為分割的閾值。

thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]

2值化后效果如下:

圖像膨脹

接下來進行一個圖像的縱向膨脹,選擇一個膨脹的維度,這里選擇的是7。

kernel = np.ones((7,1),np.uint8) 
dilation = cv2.dilate(thresh, kernel, iterations=1)

找輪廓

接下來調用opencv找一下輪廓,

# 找輪廓
cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)

接下來我們再讀取一下原圖,繪制輪廓看下輪廓的樣子。

外接矩形

對于輪廓我們可以做外接矩形,這里可以看下外接矩形的效果。

過濾字符

這里過濾字符的原理其實就是將輪廓內的顏色填充成黑色。下面的代碼是將高度小于15的輪廓填充成黑色。

for i, c in enumerate(cnts): 
    x, y, w, h = cv2.boundingRect(c) 
    if (h  15):
        cv2.fillPoly(thresh, pts=[c], color=(0))

填充后可以看到標點符號就沒了。

字符分割

因為圖像是個矩陣,最后字符分割就是使用切片進行分割。

for c in cnts: 
    x, y, w, h = cv2.boundingRect(c)
    if (h  15):
        continue
    cropImg = thresh[y:y+h, x:x+w]
    plt.imshow(cropImg)
    plt.show()

構造數據集

最后我們創建數據集進行標注,就是把上面的都串起來,然后將分割后的圖片保存到文件夾里,并且完成標注。

import cv2
import numpy as np
import imutils
from matplotlib import pyplot as plt
import uuid


def split_letters(im):
    # 2值化
    thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]
    # 縱向膨脹
    kernel = np.ones((7, 1), np.uint8)
    dilation = cv2.dilate(thresh, kernel, iterations=1)
    # 找輪廓
    cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    cnts = imutils.grab_contours(cnts)

    # 過濾太小的
    for i, c in enumerate(cnts):
        x, y, w, h = cv2.boundingRect(c)
        if h  15:
            cv2.fillPoly(thresh, pts=[c], color=(0))

    # 分割
    char_list = []
    for c in cnts:
        x, y, w, h = cv2.boundingRect(c)
        if h  15:
            continue
        cropImg = thresh[y:y + h, x:x + w]
        char_list.append((x, cropImg))
    return char_list


for i in range(1, 10):
    im = cv2.imread(f"test{i}.png", 0)

    for ch in split_letters(im):
        print(ch[0])
        filename = f"ocr_datas/{str(uuid.uuid4())}.png"
        cv2.imwrite(filename, ch[1])

向量搜索(分類)

向量搜索其實就是個最近鄰搜索的問題,我們可以使用sklearn中的KNeighborsClassifier。

訓練模型代碼如下:

import os
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
import cv2
import pickle
import json

max_height = 30
max_width = 30


def make_im_template(im):
    template = np.zeros((max_height, max_width))
    offset_height = int((max_height - im.shape[0]) / 2)
    offset_width = int((max_width - im.shape[1]) / 2)
    template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im
    return template

label2index = {}
index2label = {}
X = []
y = []
index = 0
for _dir in os.listdir("ocr_datas"):
    new_dir = "ocr_datas/" + _dir
    if os.path.isdir(new_dir):
        label2index[_dir] = index
        index2label[index] = _dir
        for filename in os.listdir(new_dir):
            if filename.endswith("png"):
                im = cv2.imread(new_dir + "/" + filename, 0)
                tpl = make_im_template(im)  # 生成固定模板
                tpl = tpl / 255  # 歸一化
                X.append(tpl.reshape(max_height*max_width))
                y.append(index)
        index += 1

print(label2index)
print(index2label)

model = KNeighborsClassifier(n_neighbors=1)
model.fit(X, y)

with open("simple_ocr.pickle", "wb") as f:
    pickle.dump(model, f)


with open("simple_index2label.json", "w") as f:
    json.dump(index2label, f)

這里有一點值得說的是如何構建圖片的向量,我們分隔的圖片的長和寬是不固定的,這里首先需要使用一個模型,將分隔后的圖片放置到模板的中央。然后將模型轉換為一維向量,當然還可以做一個歸一化。

生成結果

最后生成結果就是還是先分割一遍,然后轉換為向量,調用KNeighborsClassifier模型,找到最匹配的一個作為結果。當然這是識別一個字符的結果,我們還需要根據分割的位置進行一個排序,才能得到最后的結果。

import cv2
import numpy as np
import imutils
from sklearn.neighbors import KNeighborsClassifier
import pickle
import json


with open("simple_ocr.pickle", "rb") as f:
    model = pickle.load(f)

with open("simple_ocr_index2label.json", "r") as f:
    index2label = json.load(f)

max_height = 30
max_width = 30


def make_im_template(im):
    template = np.zeros((max_height, max_width))
    offset_height = int((max_height - im.shape[0]) / 2)
    offset_width = int((max_width - im.shape[1]) / 2)
    template[offset_height:offset_height + im.shape[0], offset_width:offset_width + im.shape[1]] = im
    return template.reshape(max_height*max_width)


def split_letters(im):
    # 2值化
    thresh = cv2.threshold(im, 100, 255, cv2.THRESH_BINARY)[1]
    # 縱向膨脹
    kernel = np.ones((7, 1), np.uint8)
    dilation = cv2.dilate(thresh, kernel, iterations=1)
    # 找輪廓
    cnts = cv2.findContours(dilation.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    cnts = imutils.grab_contours(cnts)

    # 過濾太小的
    for i, c in enumerate(cnts):
        x, y, w, h = cv2.boundingRect(c)
        if h  15:
            cv2.fillPoly(thresh, pts=[c], color=(0))

    # 分割
    char_list = []
    for c in cnts:
        x, y, w, h = cv2.boundingRect(c)
        if h  15:
            continue
        cropImg = thresh[y:y + h, x:x + w]
        char_list.append((x, cropImg))
    return char_list


def ocr_recognize(fname):
    im = cv2.imread(fname, 0)
    char_list = split_letters(im)

    result = []
    for ch in char_list:
        res = model.predict([make_im_template(ch[1])])[0]  # 識別單個結果
        result.append({
            "x": ch[0],
            "label": index2label[str(res)]
        })
    result.sort(key=lambda k: (k.get('x', 0)), reverse=False) # 因為是單行的,所以只需要通過x坐標進行排序。

    return "".join([it["label"] for it in result])


print(ocr_recognize("test1.png"))

以上就是python 如何做一個識別率百分百的OCR的詳細內容,更多關于python 做一個OCR的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • python3使用Pillow、tesseract-ocr與pytesseract模塊的圖片識別的方法
  • python3光學字符識別模塊tesserocr與pytesseract的使用詳解
  • python PaddleOCR庫用法及知識點詳解
  • python EasyOCR庫實例用法介紹
  • python muggle_ocr庫用法及實例代碼
  • Python 實現任意區域文字識別(OCR)操作
  • Python實現OCR識別之pytesseract案例詳解

標簽:龍巖 酒泉 商丘 寧夏 江蘇 定西 金融催收 云南

巨人網絡通訊聲明:本文標題《python 如何做一個識別率百分百的OCR》,本文關鍵詞  python,如何,做,一個,識別率,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 如何做一個識別率百分百的OCR》相關的同類信息!
  • 本頁收集關于python 如何做一個識別率百分百的OCR的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    韩国精品久久久| 亚洲国产一区二区三区| 一区二区三区欧美久久| 美日韩一区二区| 91免费看`日韩一区二区| 日韩欧美高清一区| 亚洲制服丝袜av| 国产成人综合网站| 欧美电影影音先锋| 亚洲欧美在线aaa| 久久99最新地址| 精品视频在线看| 中文字幕巨乱亚洲| 蜜乳av一区二区三区| 色94色欧美sute亚洲线路二| 久久久午夜精品| 亚洲黄色av一区| 丰满少妇久久久久久久| 日韩欧美色电影| 亚洲成a人v欧美综合天堂下载 | 欧美日本视频在线| 中文字幕制服丝袜成人av| 蜜桃免费网站一区二区三区| 99久久精品免费精品国产| 精品粉嫩超白一线天av| 午夜视黄欧洲亚洲| 91在线视频播放地址| 欧美国产激情二区三区| 久久er99精品| 日韩欧美电影一二三| 亚洲一区二区不卡免费| 成人一区在线观看| 久久久久久久电影| 久久av资源站| 日韩欧美激情在线| 午夜欧美视频在线观看| 欧亚一区二区三区| 亚洲精品免费一二三区| www.亚洲人| 欧美激情一区在线观看| 国产一区在线观看视频| 69av一区二区三区| 日韩不卡一区二区三区| zzijzzij亚洲日本少妇熟睡| 国产精品丝袜91| 成人激情小说乱人伦| 欧美成人午夜电影| 免费观看成人av| 91精品国产一区二区三区蜜臀| 婷婷中文字幕一区三区| 欧美日韩和欧美的一区二区| 亚洲成人1区2区| 69久久夜色精品国产69蝌蚪网| 一区二区三区国产| 欧美在线短视频| 亚洲一区二区三区美女| 91美女在线看| 亚洲免费成人av| 日本伦理一区二区| 亚洲三级电影网站| 日本高清不卡视频| 一个色综合av| 色综合久久综合网97色综合| 亚洲欧美一区二区三区孕妇| 91久久精品网| 亚洲成av人片一区二区| 欧美电视剧免费观看| 丁香婷婷综合网| 一区二区三区免费网站| 日韩欧美国产1| 波多野结衣一区二区三区| 亚洲高清免费视频| 精品国产一区a| 99re热视频这里只精品| 三级欧美韩日大片在线看| 久久久精品黄色| 欧洲色大大久久| 韩国午夜理伦三级不卡影院| 日韩美女精品在线| 在线成人免费视频| 成人午夜电影小说| 日韩精品电影一区亚洲| 久久久精品天堂| 欧美三级电影一区| 国产一区二区伦理| 亚洲一区免费观看| 久久女同精品一区二区| 欧美综合一区二区三区| 国产一区在线视频| 亚洲国产wwwccc36天堂| 国产日韩v精品一区二区| 欧美系列日韩一区| 国产乱一区二区| 亚洲二区在线观看| 日本一区二区三区在线观看| 欧美日韩精品免费观看视频| 成熟亚洲日本毛茸茸凸凹| 午夜精品爽啪视频| 国产精品毛片久久久久久| 91精选在线观看| 9久草视频在线视频精品| 久久国产精品99久久人人澡| 亚洲精品一二三| 国产亚洲欧美日韩日本| 6080日韩午夜伦伦午夜伦| 91麻豆自制传媒国产之光| 国产原创一区二区| 首页国产欧美日韩丝袜| 亚洲欧美日韩小说| 国产亚洲美州欧州综合国| 777久久久精品| 在线精品国精品国产尤物884a| 国产精品小仙女| 免费看欧美美女黄的网站| 亚洲美女在线一区| 国产精品视频线看| 欧美tickling挠脚心丨vk| 欧美三级电影网| 色综合久久综合| 成人精品国产免费网站| 狠狠狠色丁香婷婷综合激情| 日韩黄色免费电影| 一区二区激情视频| 国产精品不卡在线观看| www亚洲一区| 日韩欧美视频一区| 欧美一区二区久久久| 欧洲一区二区av| 日本韩国欧美三级| 成年人国产精品| 成人综合在线视频| 国产老肥熟一区二区三区| 久久精品国产免费| 美女视频免费一区| 日韩在线a电影| 亚洲成av人片在www色猫咪| 一区二区不卡在线视频 午夜欧美不卡在| 国产日韩一级二级三级| 久久久亚洲欧洲日产国码αv| 欧美电影免费观看高清完整版| 欧美一区二区三区白人| 91精选在线观看| 欧美一区二区三区不卡| 欧美一二三在线| 日韩欧美一二三| 精品日韩在线一区| 精品国产乱码91久久久久久网站| 日韩欧美一区二区不卡| 欧美一卡2卡3卡4卡| 欧美二区三区91| 91精品欧美综合在线观看最新| 欧美高清激情brazzers| 在线播放欧美女士性生活| 欧美电影一区二区三区| 欧美一区欧美二区| 日韩一卡二卡三卡四卡| 日韩精品一区二区三区在线| 精品噜噜噜噜久久久久久久久试看| 日韩一区二区三| 日韩免费高清电影| 精品嫩草影院久久| 精品国产免费人成在线观看| 欧美精品一区男女天堂| 国产网站一区二区三区| 亚洲国产高清在线观看视频| 亚洲视频在线一区| 亚洲一区二区三区中文字幕在线| 亚洲国产精品久久人人爱蜜臀| 水野朝阳av一区二区三区| 青椒成人免费视频| 国产精品一区二区久久不卡| 粉嫩av一区二区三区粉嫩| 91天堂素人约啪| 欧美日韩精品福利| 欧美www视频| 国产精品久久久久久久久免费桃花| 亚洲视频资源在线| 午夜不卡在线视频| 久久99久久精品| 丁香五精品蜜臀久久久久99网站| 99久久777色| 欧美日韩视频在线观看一区二区三区| 制服丝袜中文字幕亚洲| 久久久777精品电影网影网| 日韩毛片视频在线看| 亚洲gay无套男同| 韩国一区二区在线观看| 91在线视频网址| 91精品国产综合久久香蕉的特点| 久久久不卡影院| 玉足女爽爽91| 精品一区二区在线观看| av激情亚洲男人天堂| 欧美日韩免费高清一区色橹橹| 欧美电影免费观看高清完整版在线| 亚洲国产经典视频| 亚洲国产乱码最新视频| 国精产品一区一区三区mba视频 | 成人av网站在线观看| 欧美又粗又大又爽|