[發明專利]一種信息檢索的方法和系統有效
| 申請號: | 201210099720.9 | 申請日: | 2012-04-06 |
| 公開(公告)號: | CN103365910B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 姚伶伶;赫南;王迪 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司11270 | 代理人: | 蔣雅潔,程立民 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 檢索 方法 系統 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種信息檢索的方法和系統。
背景技術
在現有的信息檢索發布系統中,按照傳統網頁搜索的檢索方法、即按照檢索串(query)中多個核心語素的“與”操作進行檢索,例如:某個檢索串包含A、B、C這三個核心語素,那么按照傳統網頁搜索的檢索方法,即是按照A、B、C的“與”操作進行檢索,也就是能同時匹配到A、B、C這三個核心語素的互聯網發布信息才會被檢索出來,作為檢索結果。
上述檢索方法會導致大量的匹配無結果,因此,目前的做法是擴展匹配端,在離線情況下按照一定的時間窗口從用戶檢索日志(query?log)中篩選出高頻query(即出現頻率高于一定閾值的query);通過語義分析服務模塊,獲取這些query的網頁搜索結果并分析其特征;同時對每一個篩選的query,通過整合各query擴展結果和關鍵詞擴展,生成最初的關鍵詞候選列表,該列表中包括用于匹配query的關鍵詞。然后,query關鍵詞映射子系統為每一對query和關鍵詞計算各種用于衡量兩者相關度的特征,包括各種文本相似度、語義相似度等。最后,對每一對query和關鍵詞及其各種特征,進行相關度預測,按照相關度得分對候選關鍵詞篩選和排序,得到query的最終關鍵詞映射表,即QA(Query?Analysis,檢索串分析)詞表。其中,QA詞表是指query到關鍵詞的hash(哈希)詞表,該詞表的左鍵為一定的時間窗口內的query?log所統計出來的高頻query,右鍵為高頻query映射到的互聯網發布信息的數據庫中與該query文本語義相似的關鍵詞或關鍵詞系列,即QA詞表維護的是高頻query與關鍵詞的映射關系。在檢索端進行query分析并匹配互聯網發布信息時,會從QA詞表中查找query所對應的關鍵詞,然后在關鍵詞-互聯網發布信息索引中找到相應的互聯網發布信息作為檢索結果。
然而,在現有的檢索方法和系統中,query只有精確命中QA詞表,才能匹配出相應的關鍵詞,并未充分利用query之間的相關性,從而導致檢索結果對互聯網發布信息的覆蓋率較低。
發明內容
有鑒于此,本發明的主要目的在于提供一種信息檢索的方法和系統,以充分利用query之間的相關性,提高信息檢索結果對互聯網發布信息的覆蓋率。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明提供了一種信息檢索的方法,該方法包括:
基于檢索串query的擴展對基礎檢索串分析QA詞表進行二次映射過程,生成二級映射的QA詞表;其中,所述基礎QA詞表包括高頻query到關鍵詞的映射,所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關鍵詞的映射;
根據獲取的信息檢索請求中的檢索串,進行所述二級映射的QA詞表的查找,得到所述檢索串命中的關鍵詞,并提取所述關鍵詞對應的互聯網發布信息作為檢索結果。
較佳的,所述query的擴展具體為:
依據檢索日志,采用基于會話session的query擴展、和/或基于互聯網發布信息互點擊的query擴展、和/或基于相關搜索的query擴展,得到多個query相關系列。
較佳的,所述基于query的擴展對基礎QA詞表進行二次映射過程,生成二級映射的QA詞表,具體為:
對于query擴展得到的每一個query相關系列,在判斷所述query相關系列中存在與所述基礎QA詞表中相同的高頻query時,將所述query相關系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query,生成擴展query到高頻query的初始的第一級映射;
計算所述初始的第一級映射中的各擴展query與相應高頻query的相似度,并過濾掉相似度小于預設閾值的擴展query,保留相似度大于或等于預設閾值的擴展query,得到最終的第一級映射;
根據所述最終的第一級映射和所述基礎QA詞表,生成二級映射的QA詞表。
較佳的,該方法進一步包括:根據相關性邏輯回歸模型計算所述初始的第一級映射中的各擴展query與相應高頻query的相似度,具體為:
接收人工標注的標準集,所述標準集中包括人工標注的擴展query到高頻query的映射;
計算所述標準集中每一個擴展query到高頻query映射的特征值,并隨機將所述標準集劃分為訓練集和校驗集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210099720.9/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





