[發明專利]一種基于查詢語義和點擊流數據的查詢建議方法無效
| 申請號: | 201110172766.4 | 申請日: | 2011-06-24 |
| 公開(公告)號: | CN102253982A | 公開(公告)日: | 2011-11-23 |
| 發明(設計)人: | 彭學平;牛振東;黃勝 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 查詢 語義 點擊 數據 建議 方法 | ||
技術領域
本發明涉及一種新的查詢建議方法——基于查詢語義和點擊流數據的查詢建議方法QSQSCD(Query?Suggestion?Based?on?the?Query?Semantics?andClick-through?Data),屬于信息檢索領域。
背景技術
目前搜索引擎采用的主要交互方式是用戶自主輸入查詢,搜索系統根據用戶輸入的查詢提供檢索結果。但是,很多時候用戶輸入的查詢詞并不能準確表達其搜索需求。一方面,用戶輸入的查詢詞通常比較短——平均只有兩三個詞;另一方面,很多搜索引擎含有歧義或意圖模糊;此外,很多時候,用戶之所以要使用搜索引擎進行信息的搜索就是因為對要檢索話題知之甚少甚至毫無概念,這時候用戶很難構造準確的查詢。研究表明只有25%的查詢能清晰表達用戶的意圖。
為了更好地幫助用戶構造查詢,搜索引擎普遍采用查詢建議技術,在搜索結果頁面中的“相關搜索”就是查詢建議的一個具體應用。查詢建議指發現或構造一組與原查詢Q相關的查詢{Q1,Q2,...},可以通過修改原查詢Q或整個替換Q來實現這些相關查詢。例如,對用戶查詢“蘋果iphone”,可以通過修改查詢詞“iphone”來推薦查詢“蘋果手機”,也可以將整個查詢替換為“ipad”。
由于有著巨大的應用需求和價值,查詢建議成為近年來的研究熱點。從技術實現上看,查詢建議可以看作一個以搜索引擎查詢為檢索對象的信息檢索問題。然而,不同于文檔或網頁,查詢的自身特點使查詢建議面臨諸多挑戰:
首先,不同于文檔或網頁,查詢通常只包含兩到三個查詢詞,缺乏充分的文本內容,傳統信息檢索模型不適合直接對其進行處理;
其次,用戶查詢信息稀疏。用戶查詢日志數據中多數查詢出現次數很少,在對這些查詢處理時,可利用的相關屬性信息有限;
最后,用戶查詢復雜多樣。用戶查詢日志數據中通常包含幾千萬甚至上億條不同的查詢,即使是同一查詢不同用戶可能表示不同意圖。此外,用戶查詢受時間、突發事件等因素影響。
查詢建議方法根據所依賴的數據不同可分為兩類:基于文檔的方法和基于日志的方法。1)第一種方法主要通過處理包含查詢詞的文檔來分析查詢,從相關文檔或人工編輯語料中搜索找出與輸入查詢相關的詞或短語,然后利用這些相關詞或短語構建推薦查詢。2)第二種方法主要通過分析用戶的搜索引擎查詢日志尋找曾經出現過的相似查詢,然后向用戶給予推薦。這兩種方法各有利弊,基于日志的方法對處理出現頻率小的稀疏查詢比較困難,基于文檔的方法雖能處理稀疏查詢,但是查找相關文檔也是一個難題。
發明內容
本發明的目的是針對目前查詢建議缺乏有效語義處理的問題,提出一種基于查詢語義和點擊流數據的查詢建議方法。
本發明提供了一種基于查詢語義和點擊流數據的查詢建議方法,包括以下步驟:
一、對收集的查詢日志數據進行預處理,去掉非中文查詢串、亂碼數據及無意義的符號,形成規范的查詢日志庫;
二、對用戶輸入的查詢數據進行分詞、過濾停用詞的預處理,形成包含多個關鍵詞的查詢數據串;
三、將用戶查詢數據串與查詢日志庫中日志信息逐條進行相似度計算;
四、基于知網中的詞概念相關度計算方法,將用戶查詢數據串與查詢日志庫中日志信息逐條進行語義相關度計算;
五、將步驟三和步驟四計算出的相似度和語義相關度進行融合,計算用戶查詢數據串與查詢日志庫中每條日志信息的查詢語義相關度;
六、按照步驟五中的相關度由大到小,取出Top-N推薦給用戶。
本發明還提出了基于點擊流矩陣模型的矩陣相關度計算方法,并將其與查詢語義相關度相融合,具體方法為:
在得到用戶查詢數據串與查詢日志庫中每條日志信息的查詢語義相關度之后,判斷查詢日志庫中是否包含用戶查詢數據串,若不包含,則將用戶查詢數據串的矩陣相關度設為0;若包含,則以用戶提交的查詢數據與該數據對應的點擊URL之間的關系為基礎,逐條計算用戶查詢數據串與查詢日志庫中其他查詢日志信息之間的矩陣相關度;
將查詢語義相關度和矩陣相關度進行融合,計算查詢數據與查詢日志庫中每條日志信息的相關度,作為推薦給用戶的依據。
有益效果
本發明所述基于查詢語義和點擊流數據的查詢建議方法,將查詢語義信息以及查詢數據與該數據對應的點擊URL之間的關系作為查詢建議的依據,可以有效的消除查詢歧義,并對輸入錯誤進行提醒,提高信息檢索系統的易用性和交互能力。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110172766.4/2.html,轉載請聲明來源鉆瓜專利網。





