[發(fā)明專利]一種搜索方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210457609.2 | 申請日: | 2012-11-14 |
| 公開(公告)號: | CN103810213B | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設計)人: | 赫南;姚伶伶;劉小兵;王迪;楊俊麗;王艷敏 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司11270 | 代理人: | 蔣雅潔,程立民 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及計算機搜索技術領域,尤其涉及一種搜索方法和系統(tǒng)。
背景技術
搜索是指互聯(lián)網(wǎng)用戶使用個人計算機(PC)、手機等終端設備,通過向搜索引擎輸入框提交檢索串(query),在后臺匹配系統(tǒng)中觸發(fā)邏輯相關搜索結果的過程。
在匹配系統(tǒng)中,目前主要通過以下幾種方式進行query到素材的關鍵詞(keyword)之間的觸發(fā)匹配:
1、按匹配類型的關鍵詞觸發(fā)
在系統(tǒng)數(shù)據(jù)庫中,keyword及其對應的素材會以倒排索引的形式存放;匹配系統(tǒng)會對用戶提交的query進行在線分析,找到對應各種匹配類型的keyword,并通過keyword的倒排信息,完成素材的拉取。一個典型的在線分析匹配keyword的方法如下:
例如,有query:ABCD(其中A、B、C、D是對query進行分詞后的語素,語素是指字符串分詞后的最小結果單元),對query的分詞語素取組合遍歷:
C(4,4)={A,B,C,D},
C(4,3)={A,B,C},{A,B,D},{A,C,D},{B,C,D},
C(4,2)={A,B},{A,C},{A,D},{B,C},{B,D},{C,D},
C(4,1)={A},{B},{C},{D}
用組合結果去檢索keyword索引,可以找到當前所有生效的keyword,它們對應各種匹配類型。
2、用戶檢索串的糾錯、改寫觸發(fā)
用戶在使用搜索引擎的過程中,可能會出現(xiàn)拼寫錯誤或不規(guī)范的輸入,雖然用戶本人(和智能的搜索引擎)可以理解,但是直接用來觸發(fā)素材可能導致結果不理想。因此,除了正常的query歸一化過程,還需要結合離線的歷史統(tǒng)計信息,針對性的對輸入的query進行糾錯、query改寫,從而正確觸發(fā)含有用戶檢索意圖的素材。
3、歷史高頻query的離線挖掘擴展
一種典型的實現(xiàn)方案是,預先統(tǒng)計好歷史n天的高頻query,使用各種離線挖掘的方法,擴展出高質量的keyword,最終以詞表的形式加載到匹配系統(tǒng)中。這樣,當用戶提交一個已經(jīng)離線分析過的query時,就可以形成素材keyword的即時觸發(fā),起到快速緩存的作用。
4、匹配系統(tǒng)中keyword的等價擴展補充
離線挖掘過程解決了大部分高頻query的觸發(fā)問題,但針對長尾query(即低頻query,檢索次數(shù)較少的、不常見的query)的匹配,如果只有在線分析過程,則很難保證匹配結果的數(shù)量和質量(往往找到的關鍵詞語義上會形成偏離)。因此,在實際的匹配系統(tǒng)中,還會對已經(jīng)找到的keyword進行等價補充。通常會大量使用諸如keyword等價聚類、同義替換等技術。
目前一種常見的匹配系統(tǒng)的關鍵詞匹配流程,如圖1所示,其應用到前述query的在線分析、高頻query的離線挖掘、keyword等價聚類等技術手段。
在線分析過程找到的keyword往往是query的子串,容易局限于字面內容,而且找到的子串不能保證保留了query的核心意圖,有時語義偏差較大。
用戶檢索串的糾錯、改寫觸發(fā)可以解決一部分匹配問題,但應用范圍較窄,對query的覆蓋有限。
歷史高頻query的離線擴展,其使用的前提是query的精確命中,粒度太粗,如果query表達有細微變化,即使沒有語義的偏移,也無法直接關聯(lián)已有結果。
keyword的等價擴展補充也存在觸發(fā)粒度較粗的問題,等價的聚類關系必須是與在線分析找到的keyword完全匹配,且在線分析找到的keyword還必須是當前生效的。這些限制條件往往導致keyword聚類資源本身不能發(fā)揮更大的作用。
基于此,需要提出一種觸發(fā)粒度更細、搜索結果更全面的搜索方案,以解決上述不足。
發(fā)明內容
有鑒于此,本發(fā)明的主要目的在于提供一種搜索方法和系統(tǒng),以實現(xiàn)觸發(fā)粒度更細、搜索結果更全面的關鍵詞和相關素材搜索。
為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
本發(fā)明提供一種搜索方法,該方法包括:
基于歷史高頻檢索串構建檢索串語素簽名和倒排索引;所述檢索串語素簽名和倒排索引為對所述歷史高頻檢索串進行分詞后,語素簽名和相同的各組檢索串的倒排索引數(shù)據(jù)結構;
根據(jù)輸入匹配系統(tǒng)的原始檢索串查詢所述檢索串語素簽名和倒排索引,得到與所述原始檢索串語素簽名相同的檢索串集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210457609.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:使用VTAG調停的負載均衡SCTP關聯(lián)
- 下一篇:一種燈罩





