[發明專利]相似字選取和文件檢索的方法和系統無效
| 申請號: | 00122279.1 | 申請日: | 2000-07-28 |
| 公開(公告)號: | CN1282934A | 公開(公告)日: | 2001-02-07 |
| 發明(設計)人: | 佐藤光弘;伊藤快 | 申請(專利權)人: | 松下電器產業株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 上海專利商標事務所 | 代理人: | 李玲 |
| 地址: | 日本國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 選取 文件 檢索 方法 系統 | ||
本發明一般地涉及文件檢索系統,尤其涉及一種出現基于模式的相似字選取器以及其在查詢擴展和多語言文件檢索的應用。
由于因特網和個人計算機的的擴展,當大量文件已經計算機化和分發時,對文件進行電子搜索變得很普遍。通常,傳統的文件檢索系統參考用戶輸入的查詢關鍵字并提供包含關鍵字的文件作為檢索的結果。然而,由于可能存在許多用不同的表達方法描述相同主題事件的文件,對用戶來說僅使用用戶碰到的關鍵字來尋找所有這種符合他或她的要求的文件是很困難的。為了這個目的,到目前為止已經提議了各種查詢擴展技術,這些技術為擴展檢索的給出查詢。
由于情況的改善,能通過因特網的擴散而訪問世界上的信息,所以以用戶母語以外的語言作出檢索信息的請求正在日益增加。為了符合這種請求,近來,在多語言文件檢索方法方面的研究正在增長。
在日本信息處理協會(IPSJ)的第52屆全國會議的刊物中,“具有使用字網的查詢擴展的信息檢索系統”(1996,pp.4-201-4-202)是由Akamine等人提出的查詢擴展技術的一個例子。在該系統中,通過使用固定的同義詞詞匯尋找查詢項的同義名,并用找到的同義名來擴展查詢。然而,由于找到的同義名和固定同義詞詞匯的詞匯表有關,它不適用于特殊字段中的檢索。
另一個查詢擴展技術是由K.Saito等人在IPSJ研究組報告(信息研究基礎47-10,1997,pp.67-74)的“基于概念的查詢擴展”中提出的。在該系統中,使出現在文件數據庫中的待檢索的每個字在矢量空間上映射,它的大小相應于構成文件數據庫的文件。在矢量空間中的兩個字定義的矢量的內積確定兩個字之間的相似度。得到與所要求的文件有關的相似字并使用于查詢的擴展。
然而,對于未包含在字典詞匯表中的字用剛才所述的查詢擴展技術不能獲得相似程度。為此,該技術不能應用于含有任何未包含在字典中的查詢項的查詢。
L.Ballesteros等人的“解決交叉語言檢索的意義不明確”(ACM-SIGIR98,1998,pp.64-71)描述了多語言文件檢索系統。在參考3中,通過使用包含一組文件和它們的一種或多種語言譯文的平行文集(corpora),對于所給的源語言查詢列出所有可能的目標語言譯文。通過使用共同出現統計使列出的譯文范圍變窄而產生目標語言查詢。
因為在這個多語言系統中假設使用一種或多種翻譯詞典,所選擇的翻譯和翻譯詞典的詞匯有關,這意味著不能得到未包括在詞匯中的項目的翻譯。如果將系統用于象日文情況那樣字之間未留間隔的一種語言的文件數據庫,而且如果所給出的查詢包括未包含在詞匯表中的字母序列(通常是中文字符),則得不到字母序列的翻譯。
本發明試圖解決上述的和其它的問題,并使之成為一個目的,提供能夠從預定文件數據庫選取尚未被廣泛接受的給定查詢項目的相似字的相似字選取器。
本發明的另一個目的是提供裝有相似字選取器的查詢擴展技術。
本發明的再一個目的是提供裝有相似字選取器的多語言文件檢索系統。
根據本發明的一個方面,提供一種方法和一種系統,用于從文件的文件庫選取字母的給定序列的相似字。相似字的出現模式與給定序列的出現模式相似。準備了一個特征矢量表,該表包含文件數據庫中的每一個字的第一特征矢量。相應于給定序列,通過文件數據庫的檢索而得到在給定序列上的統計信息。從該統計信息計算相應于給定序列的第二特征矢量。計算第二特征矢量和每個第一特征矢量之間的相似度。選擇產生的相似度大于預定值的這種字。
通過產生包括在文件數據庫中的字的字組;通過從文件數據庫產生索引文件(索引文件是這樣的,可以從索引文件得到在文件數據庫中使用的每個字的統計信息);以及通過計算每個來自索引文件的第一特征矢量來準備特征矢量表。為了得到統計信息,搜索給定序列的索引文件。
根據本發明的一個方面,提供一種查詢擴展方法和系統,在包括第一文件數據庫和檢索器的文件檢索裝置中使用。擴展給定查詢,饋送至檢索器。為了這個目的,利用在給定查詢中的查詢字的相似字。從文件的第二文件數據庫選取查詢字的相似字。相似字的出現模式與查詢字的出現模式相似。通過準備包含第二文件數據庫中每個字的第一特征矢量的特征矢量表;通過相應于查詢字的第二文件數據庫的檢索而得到查詢字上的統計信息;通過對相應于來自統計信息的查詢字的第二特征矢量的計算;通過計算第二特征矢量和每個第一特征矢量之間的相似度;以及選擇產生的相似度大于預定值的這種字作為相似字;而得到相似字的選取。
第一和第二文件數據庫最好是相同的東西。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于松下電器產業株式會社,未經松下電器產業株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00122279.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:縫紉機的控制裝置
- 下一篇:查找移動設備位置的裝置和方法





