校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁(yè) > 知識(shí)庫(kù) > Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)

Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)

熱門(mén)標(biāo)簽:電銷機(jī)器人錄音要學(xué)習(xí)什么 煙臺(tái)電話外呼營(yíng)銷系統(tǒng) 如何地圖標(biāo)注公司 預(yù)覽式外呼系統(tǒng) 銀川電話機(jī)器人電話 企業(yè)彩鈴地圖標(biāo)注 上海正規(guī)的外呼系統(tǒng)最新報(bào)價(jià) 外賣地址有什么地圖標(biāo)注 長(zhǎng)春極信防封電銷卡批發(fā)

介紹

本文使用 Python 實(shí)現(xiàn)了前綴樹(shù),并且支持編輯距離容錯(cuò)的查詢。文中的前綴樹(shù)只存儲(chǔ)了三個(gè)分詞,格式為 (分詞字符串,頻率) ,如:('中海晉西園', 2)、('中海西園', 24)、('中南海', 4),可以換成自己的文件進(jìn)行數(shù)據(jù)的替換。在查詢的時(shí)候要指定一個(gè)字符串和最大的容錯(cuò)編輯距離。

實(shí)現(xiàn)

class Word:
    def __init__(self, word, freq):
        self.word = word
        self.freq = freq

class Trie:
    def __init__(self):
        self.root = LetterNode('')
        self.START = 3

    def insert(self, word, freq):
        self.root.insert(word, freq, 0)

    def findAll(self, query, maxDistance):
        suggestions = self.root.recommend(query, maxDistance, self.START)
        return sorted(set(suggestions), key=lambda x: x.freq)


class LetterNode:
    def __init__(self, char):
        self.REMOVE = -1
        self.ADD = 1
        self.SAME = 0
        self.CHANGE = 2
        self.START = 3
        self.pointers = []
        self.char = char
        self.word = None

    def charIs(self, c):
        return self.char == c

    def insert(self, word, freq, depth):
        if ' ' in word:
            word = [i for i in word.split(' ')]
        if depth  len(word):
            c = word[depth].lower()
            for next in self.pointers:
                if next.charIs(c):
                    return next.insert(word, freq, depth + 1)
            nextNode = LetterNode(c)
            self.pointers.append(nextNode)
            return nextNode.insert(word, freq, depth + 1)
        else:
            self.word = Word(word, freq)

    def recommend(self, query, movesLeft, lastAction):
        suggestions = []
        length = len(query)

        if length >= 0 and movesLeft - length >= 0 and self.word:
            suggestions.append(self.word)

        if movesLeft == 0 and length > 0:
            for next in self.pointers:
                if next.charIs(query[0]):
                    suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    break

        elif movesLeft > 0:
            for next in self.pointers:
                if length > 0:
                    if next.charIs(query[0]):
                        suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    else:
                        suggestions += next.recommend(query[1:], movesLeft - 1, self.CHANGE)
                        if lastAction != self.CHANGE and lastAction != self.REMOVE:
                            suggestions += next.recommend(query, movesLeft - 1, self.ADD)
                        if lastAction != self.ADD and lastAction != self.CHANGE:
                            if length > 1 and next.charIs(query[1]):
                                suggestions += next.recommend(query[2:], movesLeft - 1, self.REMOVE)
                            elif length > 2 and next.charIs(query[2]) and movesLeft == 2:
                                suggestions += next.recommend(query[3:], movesLeft - 2, self.REMOVE)
                else:
                    if lastAction != self.CHANGE and lastAction != self.REMOVE:
                        suggestions += next.recommend(query, movesLeft - 1, self.ADD)
        return suggestions



def buildTrieFromFile():
    trie = Trie()
    rows = [('中海晉西園', 2),('中海西園', 24),('中南海', 4)]
    for row in rows:
        trie.insert(row[0], int(row[1]))
    return trie


def suggestor(trie, s, maxDistance):
    if ' ' in s:
        s = [x for x in s.split(' ')]
    suggestions = trie.findAll(s, maxDistance)
    return [str(x.word) for x in suggestions]


if __name__ == "__main__":
    trie = buildTrieFromFile()
    r = suggestor(trie, '中海晉西園', 1)
    print(r)

分析

結(jié)果打印:
['中海晉西園', '中海西園']

可以看出“中海晉西園”是和輸入完全相同的字符串,編輯距離為 0 ,所以符合最大編輯距離為 1 的要求,直接返回。

“中海西園”是“中海晉西園”去掉“晉”字之后的結(jié)果,編輯距離為 1, 所以符合最大編輯距離為 1 的要求,直接返回。

另外,“中南海”和“中海晉西園”的編輯距離為 4 ,不符合最大編輯距離為 1 的要求,所以結(jié)果中沒(méi)有出現(xiàn)。

參考

https://github.com/leoRoss/AutoCorrectTrie

到此這篇關(guān)于Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)的文章就介紹到這了,更多相關(guān)Python 中文糾錯(cuò)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python中文糾錯(cuò)的簡(jiǎn)單實(shí)現(xiàn)

標(biāo)簽:潮州 宜昌 佳木斯 西寧 上饒 湖北 珠海 盤(pán)錦

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)》,本文關(guān)鍵詞  Python,容,錯(cuò)的,前綴,樹(shù),實(shí)現(xiàn),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于Python容錯(cuò)的前綴樹(shù)實(shí)現(xiàn)中文糾錯(cuò)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 佛坪县| 汉寿县| 惠州市| 澜沧| 乌拉特后旗| 和政县| 二连浩特市| 景泰县| 龙泉市| 维西| 离岛区| 都昌县| 长白| 新绛县| 莱州市| 乐东| 信阳市| 罗定市| 商都县| 盖州市| 革吉县| 随州市| 洱源县| 宁陵县| 金昌市| 花莲市| 敖汉旗| 辉南县| 高碑店市| 合肥市| 苏州市| 保定市| 延庆县| 宁津县| 红原县| 牙克石市| 凉城县| 昌图县| 年辖:市辖区| 陆河县| 昆明市|