[發明專利]文檔檢索裝置、文檔檢索方法、文檔檢索程序及記錄介質有效
| 申請號: | 200710136175.5 | 申請日: | 2007-07-19 |
| 公開(公告)號: | CN101110083A | 公開(公告)日: | 2008-01-23 |
| 發明(設計)人: | 池田哲也 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銀龍知識產權代理有限公司 | 代理人: | 許靜 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 檢索 裝置 方法 程序 記錄 介質 | ||
技術領域
本發明涉及文檔管理中的文檔檢索裝置、利用該文檔檢索裝置實施的文檔檢索方法、使計算機執行文檔檢索的文檔檢索程序及記錄有該文檔檢索程序的記錄介質,尤其涉及利用適合性反饋進行檢索詞擴展的文檔檢索裝置、文檔檢索方法、文檔檢索程序及記錄介質。
背景技術
近年來,電子化的文檔逐漸取代紙張文檔成為主要的信息存儲手段,用作企業和個人之間的意思傳遞手段。電子文檔一般由稱為文檔管理裝置的裝置進行管理。使用者為了從存儲在文檔管理裝置中的電子文檔中指定出所需參照的電子文檔,需要進行文檔檢索。在文檔檢索領域,檢索結果是否與使用者的檢索要求一致是重要的評價基準之一。以往提出有這樣一種文檔檢索裝置,根據檢索要求中指定的檢索詞對各文檔求出與檢索要求一致的程度,以下稱為“擬合優度”(relevancy?value),按擬合優度大的順序輸出(例如專利文獻1)。
檢索結果的質量由平均適合率等評價。所謂平均適合率是指對n=1,2,…N求出檢索結果一覽中上位的n個文檔組中含有的適合文檔(符合檢索要求的文檔)的比例,再將這N個值進行平均所得到的結果。
另一方面,為了得到高質量的檢索結果,也有一種不局限于使用者在檢索要求中指定的檢索詞,而是將相關詞語也作為檢索詞進行追加的手法(以下稱為“相關詞擴展”)。對于因相關詞擴展被追加的檢索詞(以下簡稱為“擴展詞”)的選擇方法有各種提案。
作為這樣的選擇方法之一,例如已知有稱為適合性反饋的手法。該手法先向使用者提示利用使用者指定的檢索詞進行檢索(一次檢索)所得到的結果,使用者將該結果區分為適合文檔和非適合文檔。得到其結果后,利用從適合文檔中含有的詞語中選擇的擴展詞進行檢索(二次檢索),將得到的結果作為最終結果輸出。以下,將用于選擇擴展詞的文檔稱為種子(seed)文檔。
另外,在適合性反饋中,指定種子文檔的操作對使用者來說是一種負擔,也成為在為了得到目的文檔組而進行的一系列檢索操作中效率下降的原因。作為減輕該適合性反饋強加于使用者的負擔的手段之一,有一種稱為模擬適合性反饋的手法。這是一種將定位于一次檢索結果上位的文檔自動地作為種子文檔使用,從而得到擴展詞的手法。
然而,模擬適合性反饋中一次檢索精度對二次檢索結果產生很大影響,另外,使用者無法控制種子文檔,因而,無法除去不合適的種子文檔,結果,有時需要排除不合適的擴展詞這樣的操作,難以減輕負擔。
為此,專利文獻2記載的發明公開了對選有不合適單詞的問題的手法;????專利文獻3記載的發明公開了適合性反饋中指定種子文檔的方法;專利文獻4及5記載的發明公開了通過視覺性地展示檢索結果從而憑直覺把握檢索結果集合的特征;專利文獻6記載的發明公開了將檢索結果在N維平面上提示,并可在該坐標平面上進行移動的手法。
其中,專利文獻2記載的發明包括:文檔排序部,檢索符合通過關鍵詞輸入部輸入的關鍵詞的文檔并按擬合優度高的順序抽出多份適合文檔;以及單詞排序部,對被抽出的適合文檔中出現的各單詞算出與上述關鍵詞的相關度,抽出相關度高的相關詞,將抽出后的相關詞補充到原來的上述關鍵詞中作為新的關鍵詞。單詞排序部在抽出與關鍵詞相關度高的相關詞時,將不適合檢索詞的單詞從相關詞中除去,文檔排序部檢索符合該新的關鍵詞的文檔,按擬合優度高的順序再次抽出適合文檔。
專利文獻3記載的發明包括:特定個人選擇手段,根據生成的檢索公式從服務器抽出的文獻信息中選擇作者或發明人即特定個人;輸出匯總手段,從服務器抽出由特定個人選擇手段選擇出的特定個人所作成的文獻信息并按時序匯總輸出。
專利文獻4記載的發明通過在檢索援助接口并列設置檢索結果顯示部和特征詞顯示部,用戶可瀏覽檢索結果的標題信息和特征信息,另外,通過具有標記標題按鈕、標記特征詞按鈕等檢索結果分析手段,用戶可從各種觀點容易地分析檢索結果,而其中標記標題按鈕用于強調含有指定的特征詞的文檔,標記特征詞按鈕用于強調指定的文檔中含有的特征詞。
在專利文獻5記載的發明中,多維空間模型表現裝置包括:進行檢索文的輸入和檢索結果輸出的使用者用終端裝置;根據檢索文進行專利文獻檢索處理的檢索裝置;以及在檢索裝置2中登記專利文獻的管理用終端裝置,將大量的技術文獻(專利文獻等)高效地分類在幾個多維空間上的組(cluster)中,將這些組配置在二維平面上作成組圖,組間的距離越近,越能得到組間距離的誤差精度高的組圖,能從視覺上把握類似的組彼此的關系。????
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710136175.5/2.html,轉載請聲明來源鉆瓜專利網。





