[發明專利]一種基于查詢語義和點擊流數據的查詢建議方法無效
| 申請號: | 201110172766.4 | 申請日: | 2011-06-24 |
| 公開(公告)號: | CN102253982A | 公開(公告)日: | 2011-11-23 |
| 發明(設計)人: | 彭學平;牛振東;黃勝 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 查詢 語義 點擊 數據 建議 方法 | ||
1.一種基于查詢語義和點擊流數據的查詢建議方法,包括以下步驟:
一、對收集的查詢日志數據進行預處理,去掉非中文查詢串、亂碼數據及無意義的符號,形成規范的查詢日志庫;
二、對用戶輸入的查詢數據進行分詞、過濾停用詞的預處理,形成包含多個關鍵詞的查詢數據串;
三、將用戶查詢數據串與查詢日志庫中日志信息逐條進行相似度計算;
四、基于知網中的詞概念相關度計算方法,將用戶查詢數據串與查詢日志庫中日志信息逐條進行語義相關度計算;
五、將步驟三和步驟四計算出的相似度和語義相關度進行融合,計算用戶查詢數據串與查詢日志庫中每條日志信息的查詢語義相關度;
六、按照步驟五中的相關度由大到小,取出Top-N推薦給用戶。
2.根據權利要求1所述的基于查詢語義和點擊流數據的查詢建議方法,其特征在于,在得到用戶查詢數據串與查詢日志庫中每條日志信息的查詢語義相關度之后,判斷查詢日志庫中是否包含用戶查詢數據串,若不包含,則將用戶查詢數據串的矩陣相關度設為0;若包含,則以用戶提交的查詢數據與該數據對應的點擊URL之間的關系為基礎,逐條計算用戶查詢數據串與查詢日志庫中其他查詢日志信息之間的矩陣相關度;
將查詢語義相關度和矩陣相關度進行融合,計算查詢數據與查詢日志庫中每條日志信息的相關度,作為推薦給用戶的依據。
3.根據權利要求1或2所述的基于查詢語義和點擊流數據的查詢建議方法,其特征在于,所述語義相關度計算方法為:
將用戶查詢數據串以及查詢日志庫中的每條日志信息均表示為規范化向量V(q)=(t1,w1;t2,w2;L;tn,wn),其中ti為特征項,wi為ti在q中的權值;查詢向量V(q)中的每個元素的權值wi由下面公式來計算,
其中,freqi表示查詢特征項ti在查詢q中的出現頻率,而查詢字符串q中總共包含n個特征項;
設用戶查詢數據串為V(q1)=(t1,w1;t2,w2;L;tn,wn),查詢日志庫中的一條日志信息為V(q2)=(t1,w1;t2,w2;L;tm,wm),則其語義相關度為:
其中i∈[1,n],j∈[1,m],Sim(ti,tj)是知網定義的詞之間的概念相似度;如果該詞語不在知網的語義庫中,則其概念相似度定義為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110172766.4/1.html,轉載請聲明來源鉆瓜專利網。





