[發明專利]相似字選取和文件檢索的方法和系統無效
| 申請號: | 00122279.1 | 申請日: | 2000-07-28 |
| 公開(公告)號: | CN1282934A | 公開(公告)日: | 2001-02-07 |
| 發明(設計)人: | 佐藤光弘;伊藤快 | 申請(專利權)人: | 松下電器產業株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 上海專利商標事務所 | 代理人: | 李玲 |
| 地址: | 日本國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 選取 文件 檢索 方法 系統 | ||
1.一種從文件的文件數據庫選取給定查詢的相似字的方法,相似字的出現模式和給定查詢的出現模式相似,所述方法包括下列步驟:
準備特征矢量表,它包含所述文件數據庫中每個字的第一特征矢量;
通過檢索相應于所述給定查詢的所述文件數據庫得到有關所述給定查詢的統計信息;
從所述統計信息計算相應于所述給定查詢的第二特征矢量;
計算所述第二特征矢量與每個所述第一特征矢量之間的相似度;以及
選擇產生的相似度高于預定值的這種字。
2.如權利要求1所述的方法,其特征在于,準備特征矢量表的所述步驟包括下列步驟:
從所述文件數據庫產生索引文件,所述索引文件是這樣的,可以從所述索引文件得到在所述文件數據庫中使用的每個字的統計信息;
從所述索引文件計算每個第一特征矢量,以及
其中所述得到統計信息的步驟包括搜索所述給定查詢的所述索引文件的步驟。
3.一種從文件的文件數據庫選取給定字母序列的相似字的方法,相似字的出現模式和給定序列的出現模式相似,所述方法包括下列步驟:
準備特征矢量表,它包含所述文件數據庫中每個字的第一特征矢量;
通過檢索相應于所述給定序列的所述文件數據庫得到有關所述給定序列的統計信息;
從所述統計信息計算相應于所述給定序列的第二特征矢量;
計算所述第二特征矢量與每個所述第一特征矢量之間的相似度;以及
選擇產生的相似度高于預定值的這種字。
4.在包括第一文件數據庫和檢索器的文件檢索系統中,一種擴展給定查詢以將經擴展的查詢提供給檢索器的方法,該方法包括下列步驟:
從文件的第二文件數據庫選取所述給定查詢的相似字或者所述給定查詢中的查詢字,所述相似字的出現模式與所述給定查詢或所述查詢字的出現模式是相似的;及
利用所述給定查詢的所述相似字或所述給定查詢的所述查詢字;
其中選取所述相似字的所述步驟包括下列步驟:
準備特征矢量表,它包含所述第二文件數據庫中每個字的第一特征矢量;
通過檢索相應于所述查詢或所述查詢字的所述第二文件數據庫得到有關所述查詢或所述查詢字的統計信息;
從所述統計信息計算相應于所述查詢或所述查詢字的第二特征矢量;
計算所述第二特征矢量與每個所述第一特征矢量之間的相似度;及
選擇產生的相似度高于預定值的這種字作為所述相似字。
5.如權利要求4所述的方法,其特征在于,所述第一和第二文件數據庫是相同的東西。
6.一種接收源語言中的任何給定字母序列和提供目標語言中的譯文,致使在源語言文件數據庫中所述給定序列的出現模式與在目標語言文件數據庫中譯文的出現模式相同的方法,其中所述兩個文件數據庫之一是另一個的譯文,所述方法包括下列步驟:
準備特征矢量表,它包含所述目標語言文件數據庫中每個字的第一特征矢量;
通過檢索相應于所述給定序列的所述源語言文件數據庫得到有關所述給定序列的統計信息;
從所述統計信息計算相應于所述給定序列的第二特征矢量;
計算所述第二特征矢量與每個所述第一特征矢量之間的相似度;及
選擇產生相似度高于預定值的這種目標語言字作為所述譯文。
7.如權利要求6所述的方法,其特征在于,準備特征矢量表的所述步驟包括下列步驟:
從所述目標語言文件數據庫產生索引文件,所述索引文件是這樣的,可以從所述索引文件得到所述目標語言文件數據庫中使用的每個字的統計信息;
從所述索引文件計算每個第一特征矢量,以及
其中得到統計信息的所述步驟包括搜索所述給定序列的所述索引文件的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于松下電器產業株式會社,未經松下電器產業株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00122279.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:縫紉機的控制裝置
- 下一篇:查找移動設備位置的裝置和方法





