[發明專利]查詢多意圖識別方法和系統有效
| 申請號: | 201310146037.0 | 申請日: | 2013-04-24 |
| 公開(公告)號: | CN103235812A | 公開(公告)日: | 2013-08-07 |
| 發明(設計)人: | 程學旗;熊錦華;程舒楊;廖華明;王元卓;公帥 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 查詢 意圖 識別 方法 系統 | ||
技術領域
本發明涉及信息檢索領域,尤其涉及一種查詢多意圖識別方法和系統。
背景技術
在信息量不斷快速增長的現代,搜索引擎成了人們獲取知識和有用信息的主要途徑之一。根據搜索引擎的查詢日志信息統計,查詢的平均長度為2.21個詞,其中查詢長度為1個或2個詞的約占62%,查詢長度長于6個詞的低于4%。由于多數查詢的長度較短,用戶在查詢中所表達的搜索意圖往往是具有多義性或多需求的,比如用戶在搜索“蘋果”一詞時,可能是指的水果,也可能是指蘋果公司,也可能是指蘋果公司的產品。此外,由于用戶缺乏一些領域的專業知識,在進行搜索的時候很難用搜索詞來明確表達自己的意思。查詢多意圖識別可以分析出用戶搜索詞的多種不同需求,利用這些不同需求的分析結果,搜索引擎可以有效地組織其搜索結果頁面,給予用戶根據其需求強度排序的搜索結果。如何正確理解用戶的搜索意圖,一直以來都是搜索引擎相關研究的重點之一。
查詢聚類為搜索引擎對用戶多種需求的深入理解提供了理論基礎。查詢聚類是指將相似的查詢及其URL鏈接分在一個群簇中,這些群簇的標簽是由其中查詢和URL鏈接的標題、摘要、文本共同決定的。查詢聚類的相關研究主要側重相似度計算方法和聚類算法兩個方面,包括基于內容的聚類、基于點擊行為和session(會話)信息的聚類、綜合以上三種信息的聚類等。基于內容的聚類一般通過對查詢結果的URL鏈接中的文本內容進行聚類。基于點擊和session信息的聚類包括諸如Sadikov等人提出的、結合了查詢日志中的點擊和session信息的聚類,通過在馬爾可夫圖上進行多次隨機游走算法模擬用戶的搜索行為,計算出每個查詢在不同的文檔上的吸收分布概率,利用這些概率特征之間的相似度計算不同查詢之間的相似度。綜合考慮內容、點擊URL鏈接和session信息相似度的聚類包括諸如Wen等人提出的查詢聚類,其綜合考慮了查詢內容的相似度、點擊URL鏈接和session信息的相似度,現有的這種聚類方法僅僅通過簡單的加權形式來綜合計算查詢不同信息的相似度,不能很好的識別用戶的搜索意圖。
在查詢多意圖識別中由于查詢文本的特征較少,目前相關的研究多數集中在基于內容相似度或者基于點擊或session信息的相似度進行聚類,這些方法缺乏對于用戶搜索意圖的考慮,不能準確區分多意圖查詢的各種不同意圖。
發明內容
根據本發明的一個實施例,提出一種查詢多意圖識別方法,包括:
步驟1)、根據G-PLSI模型計算查詢意圖概率特征向量,其中,G-PLSI模型用于模擬摘要文本的產生過程、相同查詢意圖下搜索不同查詢時的點擊鏈接行為,以及相同查詢意圖下在同一session中搜索不同查詢的行為,查詢意圖概率特征向量體現摘要文本信息以及不同查詢在相同鏈接上的點擊概率和在同一session中的共現概率;
步驟2)、計算不同查詢的查詢意圖概率特征向量之間的相似度并且根據該相似度進行查詢聚類。
在一個實施例中,步驟1)中根據G-PLSI模型計算查詢意圖概率特征向量包括:采用EM算法計算G-PLSI模型概似函數的最優解,獲得查詢意圖概率特征向量。在另一個實施例中,步驟1)中根據G-PLSI模型計算查詢意圖概率特征向量包括:采用TEM算法計算G-PLSI模型概似函數的最優解,獲得查詢意圖概率特征向量。
在一個實施例中,采用如下公式表示G-PLSI模型概似函數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310146037.0/2.html,轉載請聲明來源鉆瓜專利網。





