[發明專利]主題挖掘方法和設備、以及查詢擴展方法和設備在審

申請號：	201310301260.8	申請日：	2013-07-18
公開（公告）號：	CN104298676A	公開（公告）日：	2015-01-21
發明（設計）人：	黃耀海;張碧川;李榮軍;王釗	申請（專利權）人：	佳能株式會社
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	中國國際貿易促進委員會專利商標事務所 11038	代理人：	歐陽帆
地址：	日本***	國省代碼：	日本;JP
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	主題挖掘方法設備以及查詢擴展
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及文本挖掘技術，特別地涉及從較大的文本數據庫中發掘隱含的用戶查詢主題的主題挖掘方法，即挖掘出某些沒有直接文字記載但是可能作為用戶查詢的答案的用戶查詢主題。

背景技術

如今使用的機電裝置的功能變得越來越多，并且這些機電裝置通常能支持許多個性化的功能。以多功能打印機（MFP）為例，其將復印、打印、掃描、傳真和遠程操作功能結合在一起，以便滿足大多數人的需求。這些強大的裝置極大地便利了專業用戶，但是通常會給缺乏經驗的用戶帶來麻煩，這是因為功能強大的裝置往往帶來復雜的操作，從而使得用戶不知道如何使用該裝置或者不能找出必要的信息來操作該裝置。

鑒于這種情形，已經提出了一種對話輔助系統（dialogue?assist?system），其使得用戶能夠找出用于操作機電裝置的相關信息。用戶通過使用語言或文本來向該系統輸入查詢，該系統預測用戶的意圖，并且引導用戶操作裝置。

美國專利No.US7,774,198提出了一種用于通過向用戶輸入的查詢分層地添加短語來生成主題的方法。該專利認為用其它方法針對用戶輸入的查詢生成的短語不一定有意義，因此其使用已經存在的文本串并且通過確定文本串中的各個單元之間的句法關系來生成主題。這個機制使得所生成的主題必須已經存在于知識庫中，并且其內容被限制為包含用戶輸入的查詢中的至少一個表達。這個專利提出了通過向原始主題添加詞語或短語來產生新的優化的查詢主題的方法，所產生的新的優化的查詢主題與預定義的依存關系匹配。

發明內容

然而，本申請的發明人發現，現有技術的召回率（匹配用戶意圖）較低，這是因為現有技術只能挖掘出直接存在于知識庫中的主題，而無法挖掘出很多隱含的用戶期望的主題。

通過深入研究分析，本申請的發明人發現，在真實狀態數據（ground?truth）中，除了現有技術（例如上述美國專利）能挖掘出的主題（即，如美國專利No.US7,774,198中公開的由知識庫中已經存在的句子中的組塊（chunk）之間的依存鏈接構成的語言上依存主題）之外，還存在一類數量較多的主題，即，用于幫助用戶改變配置以實現目標功能的針對查詢的推薦主題（下文中將命名為“前提斷言對主題（premises?assertion?pair?topic）”），其中在該功能的有效性與一多值屬性的值之間存在前提映射。圖1示出了本申請的發明人作出的實驗結果，其例示了真實狀態數據中的各種類型主題的比例。該真實狀態數據是通過如下操作而獲得的：從一個MFP手冊隨機選擇十個功能名作為用戶輸入查詢，并且針對每個查詢由人工收集盡可能多的在該MFP手冊中有答案的問題，然后人工對所收集的問題進行投票，并且去除那些不重要的問題，從而得到真實狀態數據。最后，分析真實狀態數據中的這些主題的類型及其比例。從圖1可以看出，前提斷言對主題在真實狀態數據中占據20.11%的較大比例（請注意，這并非大量統計得出的平均數據，而僅僅是出于例示的目的給出）。

因此，需要一種能夠挖掘出前提斷言對主題的主題挖掘方法和設備，并且可以將該主題挖掘方法和設備應用于查詢擴展方法和設備。

根據本發明的一個方面，為了解決上述技術問題，本發明提供一種主題挖掘方法，其包括：獲取步驟，從至少一個知識庫中獲取多個句子；轉換步驟，將所獲取的句子中的至少一個轉換為條件三元組（condition?triple?form）形式的第一斷言聲明（assertion?statement），其中所述第一斷言聲明的條件三元組由多模因素的一個模式、條件、以及多值屬性的一個值構成；產生步驟，針對第一斷言聲明產生條件三元組形式的假設，其中所產生的假設的條件三元組中的多模因素和多值屬性分別與第一斷言聲明的條件三元組中的多模因素和多值屬性相同，所產生的假設中的多值屬性的值不同于第一斷言聲明中的多值屬性的值；計算步驟，通過使用存儲在所述至少一個知識庫中的證據來計算每個假設的置信度，并且從所述假設中提取出一個或更多個假設作為第二斷言聲明，其中每個第二斷言聲明的置信度大于預定的第一閾值；組合步驟，將第一斷言聲明和第二斷言聲明組合以獲得從所述多值屬性到所述多模因素的映射（mapping），并且驗證所述映射是否是滿射（surjection）；以及輸出步驟，在從所述多值屬性到所述多模因素的映射是滿射的情況下，輸出表示所述多值屬性是所述多模因素的前提的前提斷言對主題。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于佳能株式會社，未經佳能株式會社許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310301260.8/2.html，轉載請聲明來源鉆瓜專利網。