[發(fā)明專利]文檔搜索裝置和文檔搜索方法在審
| 申請?zhí)枺?/td> | 201280067066.1 | 申請日: | 2012-12-27 |
| 公開(公告)號: | CN104221012A | 公開(公告)日: | 2014-12-17 |
| 發(fā)明(設計)人: | 藤井洋一;石井純 | 申請(專利權)人: | 三菱電機株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 金春實 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 搜索 裝置 方法 | ||
技術領域
本發(fā)明涉及一種搜索被電子化的文檔的章、節(jié)、項等細小的單位的文檔搜索裝置和文檔搜索方法。
背景技術
對家電產品和車載設備等大量的設備附有記載了操作方法和故障時的應對方法等的紙的使用說明書。其中,尤其在具有畫面的信息設備中,使用說明書被電子化,能夠直接搜索和閱覽。由此,無需特意攜帶紙的文檔就能夠閱覽。另一方面,被電子化的文檔的一覽性低,難以查找用戶想要確認的內容,必須提供搜索功能。
作為在以往的搜索功能中的典型的功能中最簡單的方式,有如下GREP搜索方式:利用關鍵詞進行搜索,將搜索到的部分從文檔的開頭起按出現順序進行顯示。并且有如下邏輯型搜索方式:預先根據文檔和提取出的關鍵詞制作搜索索引,利用該搜索索引來進行基于邏輯式的搜索,并顯示候選。另外,在邏輯型搜索方式中無法定義表示輸入關鍵詞與搜索索引之間的關聯(lián)度的分數,因此有簡單地輸入關鍵詞并對其出現頻度進行計數來決定分數的最佳匹配搜索方式。并且,有如下統(tǒng)計型搜索方式:根據關鍵詞制作附加了tf·idf(term?frequency?and?inverse?document?frequency,詞頻和逆文檔頻率)等統(tǒng)計性權重的搜索索引,利用與輸入關鍵詞的向量距離(內積)進行搜索并顯示候選。通過這些搜索方式的提供,能夠搜索被電子化的文檔,在某種程度上能夠閱覽用戶所要求的部分。
在邏輯型搜索方式中,由于僅搜索與搜索條件嚴格一致的內容,因此,雖然具有如果運用復雜的搜索條件則容易找到與用戶的搜索意圖一致的內容這樣的優(yōu)點,但另一方面,存在如果搜索條件有一點不合適則容易導致搜索遺漏這樣的缺點。另外,還存在構建復雜的搜索式對于一般用戶來說是障礙高這樣的缺點。因而,最一般的邏輯型搜索是輸入多個關鍵詞并通過OR邏輯運算求出搜索結果來呈現的方式。
另一方面,在最佳匹配搜索方式和統(tǒng)計型搜索方式的情況下,具有無需在關鍵詞中加入邏輯性結構而能夠搜索這樣的優(yōu)點,而另一方面,由于文檔中的關鍵詞的出現次數被簡單地分數化,或者利用與出現傾向相應地加權的值計算分數,因此存在用戶難以控制這樣的缺點。
鑒于這些方式的優(yōu)點和缺點,作為有效利用雙方的好處的方法,提出了將多個搜索引擎合并來進行處理的方法。例如在專利文獻1中公開了如下方法:通過將邏輯型搜索方式和統(tǒng)計型搜索方式、或者最佳匹配搜索方式和統(tǒng)計型搜索方式分別獨立地執(zhí)行并將其結果邏輯性地合并,來進行搜索。
具體地說,從邏輯型搜索方式的搜索引擎僅求得搜索結果候選的信息,從最佳匹配搜索方式和統(tǒng)計型搜索方式的搜索引擎求得搜索結果候選及其分數作為信息。
在將邏輯型搜索方式與統(tǒng)計型搜索方式合起來的情況下,例如僅將邏輯式型搜索結果和統(tǒng)計型搜索結果中文檔ID重疊的內容作為最終結果候選,或者將邏輯式型搜索結果和統(tǒng)計型搜索結果的文檔ID的全部作為最終結果候選,在此基礎上將統(tǒng)計型搜索結果的分數使用于最終結果的排序。
并且,在將最佳匹配搜索方式與統(tǒng)計型搜索方式合并的情況下,使用分數的平均來進行最終結果的排序。
另外,在以往的搜索方式中,提出了如下方法:為了減少由于關鍵詞的表層上的差異而無法搜索的情況,制作好同義詞和近義詞的表,將搜索條件中的關鍵詞展開為同義詞和近義詞來進行搜索。
專利文獻1:日本特開平10-143530號公報
發(fā)明內容
發(fā)明要解決的問題
以往的文檔搜索裝置和文檔搜索方法如以上那樣構成,因此與通過單獨的搜索方式進行搜索時相比,容易得到用戶所期望的搜索結果。然而,這些搜索方式中,用于制作搜索索引的關鍵詞的提取對象是搜索對象的文檔本身,因此在使用單獨的搜索方式的情況和組合使用多個搜索方式的情況下,都是以搜索在文檔內出現的關鍵詞為基本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三菱電機株式會社,未經三菱電機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280067066.1/2.html,轉載請聲明來源鉆瓜專利網。





