[發明專利]用于挖掘意圖的方法和設備有效

申請號：	201310018519.8	申請日：	2013-01-18
公開（公告）號：	CN103942198B	公開（公告）日：	2017-07-28
發明（設計）人：	胡欽諳;黃耀海;那森;夏云慶	申請（專利權）人：	佳能株式會社;清華大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	中國國際貿易促進委員會專利商標事務所11038	代理人：	陳華成
地址：	日本***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于挖掘意圖方法設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及信息搜索的方法和設備。特別地，本發明涉及用于挖掘意圖的方法和設備。并且更特別地，本發明涉及用于針對由用戶所提出的查詢進行意圖挖掘的方法和設備。

背景技術

隨著計算機和信息技術的不斷發展，現在在整個世界中的信息產生的速率不斷增加。現今世界中存在個人信息、職業信息、娛樂信息、科技信息、政府信息等諸多信息。因為信息過多，所以導致對信息的組織和訪問成為問題。

為了改進用戶在信息搜索過程中的體驗，用于幫助用戶訪問其所尋找的信息的方法和系統不斷被研發。例如，在Wei Song,etc.HITSCIR System in NTCIR-9 Subtopic Mining Task,Proceedings ofNTCIR-9 Workshop Meeting,December6-9,2011,Tokyo,Japan中提出了嘗試理解用戶所輸入的查詢背后的潛在意圖。在用戶輸入簡短并且含糊的查詢的情況下，希望能夠輸出n個（例如，n=10）重要的并且多樣化的最佳意圖結果。表1示出了一種示例。

表1

例如，如表1所示，如果用戶輸入查詢“the beatles:rock band”（“the beatles:rock band”為一款音樂視頻游戲），則可以輸出若干個與“the beatles:rock band”有關的意圖，以供用戶進行選擇。

在意圖挖掘處理中，通常用以下公式來評價意圖挖掘結果的好壞：

其中I-rec（Intent recall）表示意圖召回率，即在所獲得的意圖中，所獲得的有用的意圖的數量（即，所獲得的正確結果）相對于希望獲得的那些意圖的數量（所有正確結果）的比率，往往用于度量意圖的多樣化；D-nDCG表示意圖準確率（Intent precision），D-nDCG為多樣化的歸一化折扣累積增益（Diversified-Normalized DiscountedCumulative Gain），它基于位置計算搜索引擎返回的結果文檔列表的相關度（參見Sakai和Song，Evaluating Diversified Search ResultUsing Per-intent Graded Relevance,Proceedings of SIGIR’11,2011Beijing），其用于度量意圖的整體相關度；而D#-nDCG表示I-rec和D-nDCG的線性組合。

在上式中，I_rec、D-nDCG以及D#-nDCG是基于查詢的真實狀態數據（ground truth）被確定的，通常是通過將意圖挖掘結果于真實狀態數據進行比較來計算得到的，這些指標的獲得是本領域公知的，因此將不再詳細描述。

作為示例，在現有技術中，可通過如下方式來獲得查詢的真實狀態數據。例如，真實狀態數據可以是人為設定的。再如真實狀態數據是由評注者所提供并且由多個人投票產生的。

在US2010/198837中公開了一種用于挖掘意圖的方法。在該專利文獻中，使用相似度分數來度量意圖的多樣性，所述相似度分數是基于意圖名稱、文檔（例如標題和片段）或路徑中的文本計算的。在該專利文獻中，目標函數如公式（2）所示：

其中，l代表候選意圖的總數，n代表要輸出的候選意圖的數量，m=1,…,n，表示已選擇的候選意圖的數量，text similarity（）函數是表示文本相似度的函數。在每一輪的選擇新候選意圖的過程中，通過該目標函數，選擇與已經選擇的m個候選意圖具有最小文本相似度的候選意圖。在該專利中通過將流行度分數除以相似度分數來對候選意圖進行排序。

圖1A和圖1B示出了在專利申請US2010/198837中所使用的方法的流程圖，其中圖1A示出了在該專利申請中所使用的方法的主流程圖，圖1B示出了圖1A的步驟830的詳細流程圖。如圖1A所示，首先，在步驟810中，用戶輸入查詢以及要輸出的意圖的數量n。在步驟820中，針對所輸入的查詢，挖掘一組候選意圖。在步驟830中，產生n個意圖。如圖1B所示，產生n個意圖的步驟830更具體地包括以下三個子步驟。首先，在步驟831中，計算候選意圖的流行度分數。接著，在步驟832中，計算候選意圖的相似度分數。在步驟833中，基于流行度分數除以相似度分數的商，來獲得n個意圖。也就是說，在步驟833中，選擇與已經選擇的m個候選意圖具有最小文本相似度的候選意圖。返回參看圖1A，在步驟840中，輸出所獲得的n個意圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于佳能株式會社;清華大學，未經佳能株式會社;清華大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310018519.8/2.html，轉載請聲明來源鉆瓜專利網。