校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > 詳解美團實現搜索關鍵詞自動匹配功能的方法

詳解美團實現搜索關鍵詞自動匹配功能的方法

熱門標簽:機器人電銷哪個牌子好 廣西防封卡外呼系統原理是什么 電銷外呼系統罵人 浙江呼叫中心外呼系統多少錢 地圖標注標記位置導航 地圖標注銷售好做嗎 清遠語音外呼系統平臺 地圖標注操作方法 阿里機器人電銷

問題背景
搜索關鍵字智能提示是一個搜索應用的標配,主要作用是避免用戶輸入錯誤的搜索詞,并將用戶引導到相應的關鍵詞上,以提升用戶搜索體驗。

美團CRM系統中存在數以百萬計的商家,為了讓用戶快速查找到目標商家,我們基于solrcloud實現了商家搜索模塊。用戶在查找商家時主要輸入商戶名、商戶地址進行搜索,為了提升用戶的搜索體驗和輸入效率,本文實現了一種基于solr前綴匹配查詢關鍵字智能提示(Suggestion)實現。

需求分析
1.支持前綴匹配原則
在搜索框中輸入“海底”,搜索框下面會以海底為前綴,展示“海底撈”、“海底撈火鍋”、“海底世界”等等搜索詞;輸入“萬達”,會提示“萬達影城”、“萬達廣場”、“萬達百貨”等搜索詞。
2.同時支持漢字、拼音輸入
由于中文的特點,如果搜索自動提示可以支持拼音的話會給用戶帶來更大的方便,免得切換輸入法。比如,輸入“haidi”提示的關鍵字和輸入“海底”提示的一樣,輸入“wanda”與輸入“萬達”提示的關鍵字一樣。
3.支持多音字輸入提示
比如輸入“chongqing”或者“zhongqing”都能提示出“重慶火鍋”、“重慶烤魚”、“重慶小天鵝”。
4.支持拼音縮寫輸入
對于較長關鍵字,為了提高輸入效率,有必要提供拼音縮寫輸入。比如輸入“hd”應該能提示出“haidi”相似的關鍵字,輸入“wd”也一樣能提示出“萬達”關鍵字。
基于用戶的歷史搜索行為,按照關鍵字熱度進行排序
為了提供suggest關鍵字的準確度,最終查詢結果,根據用戶查詢關鍵字的頻率進行排序,如輸入[重慶,chongqing,cq,zhongqing,zq] —> [“重慶火鍋”(f1),“重慶烤魚”(f2),“重慶小天鵝”(f3),…],查詢頻率f1 > f2 > f3。


解決方案
1.關鍵字收集
當用戶輸入一個前綴時,碰到提示的候選詞很多的時候,如何取舍,哪些展示在前面,哪些展示在后面?這就是一個搜索熱度的問題。用戶在使用搜索引擎查找商家時,會輸入大量的關鍵字,每一次輸入就是對關鍵字的一次投票,那么關鍵字被輸入的次數越多,它對應的查詢就比較熱門,所以需要把查詢的關鍵字記錄下來,并且統計出每個關鍵字的頻率,方便提示結果按照頻率排序。搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。
2.漢字轉拼音
用戶輸入的關鍵字可能是漢字、數字,英文,拼音,特殊字符等等,由于需要實現拼音提示,我們需要把漢字轉換成拼音,java中考慮使用pinyin4j組件實現轉換。
3.拼音縮寫提取
考慮到需要支持拼音縮寫,漢字轉換拼音的過程中,順便提取出拼音縮寫,如“chongqing”,"zhongqing"--->"cq",”zq”。
4.多音字全排列
要支持多音字提示,對查詢串轉換成拼音后,需要實現一個全排列組合,字符串多音字全排列算法如下:

Java Code復制內容到剪貼板
  1. public static List getPermutationSentence(List> termArrays,int start) {   
  2.   
  3.   if (CollectionUtils.isEmpty(termArrays))   
  4.       return Collections.emptyList();   
  5.   
  6.   int size = termArrays.size();   
  7.   if (start  0 || start >= size) {   
  8.       return Collections.emptyList();   
  9.   }   
  10.   
  11.   if (start == size-1) {   
  12.       return termArrays.get(start);   
  13.   }   
  14.   
  15.   ListString> strings = termArrays.get(start);   
  16.   
  17.   ListString> permutationSentences = getPermutationSentence(termArrays, start + 1);   
  18.   
  19.   if (CollectionUtils.isEmpty(strings)) {   
  20.       return permutationSentences;   
  21.   }   
  22.   
  23.   if (CollectionUtils.isEmpty(permutationSentences)) {   
  24.       return strings;   
  25.   }   
  26.   
  27.   ListString> result = new ArrayListString>();   
  28.   for (String pre : strings) {   
  29.       for (String suffix : permutationSentences) {   
  30.           result.add(pre+suffix);   
  31.       }   
  32.   }   
  33.   
  34.   return result;   
  35. }  

索引與前綴查詢
方案一 Trie樹 + TopK算法
Trie樹即字典樹,又稱單詞查找樹或鍵樹,是一種樹形結構,是一種哈希樹的變種。典型應用是用于統計和排序大量的字符串(但不僅限于字符串),所以經常被搜索引擎系統用于文本詞頻統計。它的優點是:最大限度地減少無謂的字符串比較,查詢效率比哈希表高。Trie是一顆存儲多個字符串的樹。相鄰節點間的邊代表一個字符,這樣樹的每條分支代表一則子串,而樹的葉節點則代表完整的字符串。和普通樹不同的地方是,相同的字符串前綴共享同一條分支。例如,給出一組單詞inn, int, at, age, adv, ant, 我們可以得到下面的Trie:

從上圖可知,當用戶輸入前綴i的時候,搜索框可能會展示以i為前綴的“in”,“inn”,”int"等關鍵詞,再當用戶輸入前綴a的時候,搜索框里面可能會提示以a為前綴的“ate”等關鍵詞。如此,實現搜索引擎智能提示suggestion的第一個步驟便清晰了,即用trie樹存儲大量字符串,當前綴固定時,存儲相對來說比較熱的后綴。

TopK算法用于解決統計熱詞的問題。解決TopK問題主要有兩種策略:hashMap統計+排序、堆排序
hashmap統計: 先對這批海量數據預處理。具體方法是:維護一個Key為Query字串,Value為該Query出現次數的HashTable,即hash_map(Query,Value),每次讀取一個Query,如果該字串不在Table中,那么加入該字串,并且將Value值設為1;如果該字串在Table中,那么將該字串的計數加一即可,最終在O(N)的時間復雜度內用Hash表完成了統計。
堆排序:借助堆這個數據結構,找出Top K,時間復雜度為N‘logK。即借助堆結構,我們可以在log量級的時間內查找和調整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然后遍歷300萬的Query,分別和根元素進行對比。所以,我們最終的時間復雜度是:O(N) + N' * O(logK),(N為1000萬,N’為300萬)。

該方案存在的問題是:

建索引和查詢的時候都要把漢字轉換成拼音,查詢完成后還得把拼音轉換成漢字顯示,且需要考慮數字和特殊字符。
需要維護拼音、縮寫兩棵Trie樹。


方案二 Solr自帶Suggest智能提示
Solr作為一個應用廣泛的搜索引擎系統,它內置了智能提示功能,叫做Suggest模塊。該模塊可選擇基于提示詞文本做智能提示,還支持通過針對索引的某個字段建立索引詞庫做智能提示。 (詳見solr的wiki頁面http://wiki.apache.org/solr/Suggester)

該方案存在的問題是:

返回的結果是基于索引中字段的詞頻進行排序,不是用戶搜索關鍵字的頻率,因此不能將一些熱門關鍵字排在前面。
拼音提示,多音字,縮寫還是要另外加索引字段。


方案三 Solrcloud建立單獨的collection,利用solr前綴查詢實現
如前所述,以上兩個方案在實施起來都存在一些問題,Trie樹+TopK算法,在處理漢字suggest時不是很優雅,且需要維護兩棵Trie樹,實施起來比較復雜;Solr自帶的suggest智能提示組件存在問題是使用freq排序算法,返回的結果完全基于索引中字符的出現次數,沒有兼顧用戶搜索詞語的頻率,因此無法將一些熱門詞排在更靠前的位置。于是,我們繼續尋找一種解決這個問題更加優雅的方案。

至此,我們考慮專門為關鍵字建立一個索引collection,利用solr前綴查詢實現。solr中的copyField能很好解決我們同時索引多個字段(漢字、pinyin, abbre)的需求,且field的multiValued屬性設置為true時能解決同一個關鍵字的多音字組合問題。配置如下:

schema.xml:

XML/HTML Code復制內容到剪貼板
  1. field name="kw" type="string" indexed="true" stored="true" />     
  2. field name="pinyin" type="string" indexed="true" stored="false" multiValued="true"/>  
  3. field name="abbre" type="string" indexed="true" stored="false" multiValued="true"/>  
  4. field name="kwfreq" type="int" indexed="true" stored="true" />  
  5. field name="_version_" type="long" indexed="true" stored="true"/>  
  6. field name="suggest" type="suggest_text" indexed="true" stored="false" multiValued="true" />  

------------------multiValued表示字段是多值的-------------------------------------

XML/HTML Code復制內容到剪貼板
  1. uniqueKey>kw/uniqueKey>  
  2. defaultSearchField>suggest/defaultSearchField>  

說明:
kw為原始關鍵字
pinyin和abbre的multiValued=true,在使用solrj建此索引時,定義成集合類型即可:如關鍵字“重慶”的pinyin字段為{chongqing,zhongqing}, abbre字段為{cq, zq}
kwfreq為用戶搜索關鍵的頻率,用于查詢的時候排序

-------------------------------------------------------

XML/HTML Code復制內容到剪貼板
  1. copyField source="kw" dest="suggest" />  
  2. copyField source="pinyin" dest="suggest" />  
  3. copyField source="abbre" dest="suggest" />  

------------------suggest_text----------------------------------

XML/HTML Code復制內容到剪貼板
  1. fieldType name="suggest_text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">  
  2.     analyzer type="index">  
  3.             tokenizer class="solr.KeywordTokenizerFactory" />  
  4.             filter class="solr.SynonymFilterFactory"    
  5.                     synonyms="synonyms.txt"    
  6.                     ignoreCase="true"    
  7.                     expand="true" />  
  8.             filter class="solr.StopFilterFactory"    
  9.                     ignoreCase="true"    
  10.                     words="stopwords.txt"    
  11.                     enablePositionIncrements="true" />  
  12.             filter class="solr.LowerCaseFilterFactory" />  
  13.             filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt" />  
  14.     /analyzer>  
  15.     analyzer type="query">  
  16.             tokenizer class="solr.KeywordTokenizerFactory" />  
  17.             filter class="solr.StopFilterFactory"    
  18.                     ignoreCase="true"    
  19.                     words="stopwords.txt"    
  20.                     enablePositionIncrements="true" />  
  21.             filter class="solr.LowerCaseFilterFactory" />  
  22.             filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt" />  
  23.     /analyzer>  
  24. /fieldType>  

KeywordTokenizerFactory:這個分詞器不進行任何分詞!整個字符流變為單個詞元。String域類型也有類似的效果,但是它不能配置文本分析的其它處理組件,比如大小寫轉換。任何用于排序和大部分Faceting功能的索引域,這個索引域只有能一個原始域值中的一個詞元。

前綴查詢構造:

Java Code復制內容到剪貼板
  1. private SolrQuery getSuggestQuery(String prefix, Integer limit) {   
  2.     SolrQuery solrQuery = new SolrQuery();   
  3.     StringBuilder sb = new StringBuilder();   
  4.     sb.append(“suggest:").append(prefix).append("*");  
  5.     solrQuery.setQuery(sb.toString());  
  6.     solrQuery.addField("kw");  
  7.     solrQuery.addField("kwfreq");  
  8.     solrQuery.addSort("kwfreq", SolrQuery.ORDER.desc);   
  9.     solrQuery.setStart(0);   
  10.     solrQuery.setRows(limit);   
  11.     return solrQuery;   
  12. }  

效果如下圖所示:

標簽:雅安 江蘇 包頭 德宏 廊坊 伊春 沈陽 臺灣

巨人網絡通訊聲明:本文標題《詳解美團實現搜索關鍵詞自動匹配功能的方法》,本文關鍵詞  詳解,美團,實現,搜索,關鍵詞,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《詳解美團實現搜索關鍵詞自動匹配功能的方法》相關的同類信息!
  • 本頁收集關于詳解美團實現搜索關鍵詞自動匹配功能的方法的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    一区二区三区四区视频精品免费 | 欧美无砖砖区免费| 国产精品亚洲综合一区在线观看| 色妹子一区二区| 精品一区二区三区在线播放| 中文字幕av一区二区三区免费看 | 久久久99久久精品欧美| 91国偷自产一区二区开放时间| 婷婷一区二区三区| 亚洲精品成人天堂一二三| 国产校园另类小说区| 日韩精品一区二区三区在线观看 | 老司机午夜精品| 亚洲成人黄色影院| 亚洲猫色日本管| 国产欧美精品一区二区色综合 | 国产精品久99| 国产精品乱码一区二区三区软件| wwwwww.欧美系列| 国产欧美一区二区精品久导航 | 亚洲日本在线a| 夜夜亚洲天天久久| 亚洲伊人伊色伊影伊综合网| 日本一区二区动态图| 亚洲天堂免费看| 亚洲6080在线| 裸体在线国模精品偷拍| 韩国av一区二区三区四区| 国产综合色精品一区二区三区| 国产在线精品不卡| 99热99精品| 欧美亚洲综合色| 日韩三级.com| 国产精品国模大尺度视频| 亚洲一区二区三区四区不卡| 日韩精品乱码免费| 成人av午夜电影| 欧美日韩亚洲不卡| 国产日韩欧美精品一区| 亚洲激情六月丁香| 国产尤物一区二区| 欧美亚洲动漫精品| 久久久久久久网| 亚洲成a人片在线不卡一二三区| 蜜桃一区二区三区四区| 成人av在线影院| 精品福利av导航| 亚洲国产精品综合小说图片区| 蜜臀av国产精品久久久久| 91视频免费播放| 久久久99精品久久| 免费美女久久99| 欧美日韩精品一区二区三区| 中文字幕精品在线不卡| 精品一区二区在线播放| 欧美亚洲一区二区在线观看| 欧美在线免费观看亚洲| 久久免费午夜影院| 日本欧美一区二区在线观看| 91网址在线看| 国产精品无码永久免费888| 精品写真视频在线观看| 欧美精品久久天天躁| 亚洲黄色小视频| 91女神在线视频| 亚洲麻豆国产自偷在线| av激情综合网| 亚洲综合一区二区精品导航| 色综合天天天天做夜夜夜夜做| 国产三级欧美三级日产三级99 | 精品久久一区二区三区| 免费精品视频在线| 精品国产污网站| 国产在线一区观看| 亚洲国产成人在线| 成人综合在线观看| 国产精品久久久久9999吃药| 99精品热视频| 一区二区三区在线观看国产| 色偷偷久久人人79超碰人人澡| 亚洲精品福利视频网站| 在线观看91av| 蜜桃视频一区二区| 中文字幕欧美激情一区| 色综合色狠狠天天综合色| 亚洲成人在线观看视频| 精品国产髙清在线看国产毛片| 国产一区二区在线观看免费| 国产人久久人人人人爽| 欧美中文字幕一区二区三区 | 7777精品久久久大香线蕉| 精品一区二区久久久| 一区视频在线播放| 欧美日韩一区在线观看| 国产精品中文字幕一区二区三区| 国产精品黄色在线观看| 欧美一级片免费看| 99久久久免费精品国产一区二区| 午夜精品成人在线视频| 国产精品女同互慰在线看| 欧美日韩在线观看一区二区| 成人毛片视频在线观看| 蜜臀av亚洲一区中文字幕| 国产精品国产三级国产aⅴ原创| 欧美浪妇xxxx高跟鞋交| 99视频一区二区| 国产69精品一区二区亚洲孕妇| 亚洲高清免费视频| 亚洲精品国产无套在线观| 国产日韩精品视频一区| 精品久久国产字幕高潮| 精品视频1区2区3区| 91女神在线视频| 成人听书哪个软件好| 国产成+人+日韩+欧美+亚洲| 日本伊人午夜精品| 免费成人你懂的| 久久精品国产精品青草| 午夜精品久久久久| 日本系列欧美系列| 视频一区视频二区中文| 一区二区三区不卡视频| 亚洲人成网站精品片在线观看| 国产网站一区二区三区| 久久久久久久电影| 亚洲国产岛国毛片在线| 中文字幕第一区| 亚洲日本一区二区| 亚洲综合自拍偷拍| 午夜精品国产更新| 久久66热re国产| 国产经典欧美精品| av在线这里只有精品| 91成人免费电影| 51午夜精品国产| 国产视频一区在线播放| 1024精品合集| 欧美aaaaaa午夜精品| 国产精品亚洲人在线观看| 美腿丝袜亚洲三区| 亚洲一级片在线观看| 日本欧美加勒比视频| 国产精品123区| 欧美日韩成人在线一区| 久久久久久久久蜜桃| 夜夜揉揉日日人人青青一国产精品| 午夜精品久久久久久久| 国产成人午夜高潮毛片| 欧美亚洲国产一区在线观看网站| 欧美一二三四区在线| 日韩一区在线看| 国产精品18久久久久久久久| 91免费版在线| 国产欧美视频一区二区| 亚洲超碰精品一区二区| 激情久久久久久久久久久久久久久久| 波多野结衣亚洲| 26uuu亚洲综合色| 日韩国产在线观看一区| 欧洲在线/亚洲| 亚洲色图在线看| av激情综合网| 欧美激情一区不卡| 国产a级毛片一区| 精品久久久久久久久久久久久久久 | 欧美日韩免费电影| 亚洲欧美在线另类| 国产麻豆成人精品| 精品免费国产一区二区三区四区| 亚洲国产一区二区三区青草影视| 高清国产一区二区三区| 国产亚洲成aⅴ人片在线观看| 麻豆一区二区99久久久久| 日韩欧美卡一卡二| 另类小说图片综合网| 91精品国产麻豆国产自产在线| 亚洲一区二区三区四区在线| 91色|porny| 一区二区欧美国产| 欧美日韩亚洲综合在线 | 日韩情涩欧美日韩视频| 久久精品国产精品亚洲精品| 久久网这里都是精品| 高清beeg欧美| 一区二区三区在线免费播放| 91国偷自产一区二区三区观看 | 天堂久久久久va久久久久| 欧美一区二区大片| 国产成人亚洲综合a∨猫咪| 国产精品色婷婷| 欧美日韩精品一区视频| 精品一区二区三区在线播放| 日本一区二区高清| 在线成人av影院| 成人精品在线视频观看| 亚洲成人黄色小说| 国产拍揄自揄精品视频麻豆| 欧美伊人久久久久久午夜久久久久| 日本午夜一区二区| 亚洲私人影院在线观看|