[發(fā)明專利]詞典生成裝置以及信息檢索裝置有效
| 申請?zhí)枺?/td> | 200810091300.X | 申請日: | 2008-04-28 |
| 公開(公告)號: | CN101571852A | 公開(公告)日: | 2009-11-04 |
| 發(fā)明(設(shè)計)人: | 夏迎炬;于浩 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 | 代理人: | 李 輝;孫海龍 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞典 生成 裝置 以及 信息 檢索 | ||
1.一種信息檢索裝置,所述信息檢索裝置包括:
檢索條件輸入單元(400),用于輸入信息檢索的檢索條件;
搜索引擎(420),用于根據(jù)所述檢索條件輸入單元輸入的所述檢索條件進行信息檢索,返回檢索結(jié)果;
詞典生成裝置,用于生成字典用詞條,所述字典用詞條被特征向量生成用字典所采用;
特征向量生成部(416),根據(jù)所述特征向量生成用字典中的字典用詞條生成所述檢索條件的特征向量和所述檢索結(jié)果的特征向量;以及
檢索結(jié)果過濾部(413),根據(jù)所述特征向量生成部所生成的所述檢索條件的特征向量和所述檢索結(jié)果的特征向量對檢索結(jié)果進行過濾,
其中,所述詞典生成裝置包括:
詞頻統(tǒng)計部(11),用于統(tǒng)計在包括關(guān)注語言和對比語言的多語語料中,所述關(guān)注語言的關(guān)注詞條的詞頻以及所述關(guān)注詞條的對比詞條的詞頻,所述對比詞條是所述關(guān)注詞條的所述對比語言的翻譯詞;
詞頻相似度計算單元(12),用于計算所述關(guān)注詞條的詞頻和所述對比詞條的詞頻的詞頻相似度;以及
詞條選擇單元(13),根據(jù)所述詞頻相似度計算單元(12)計算出的詞頻相似度,確定所述字典用詞條。
2.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述多語語料是多語對齊語料。
3.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述詞頻相似度計算單元(12)依據(jù)以下方法之一計算所述詞頻相似度:
方法1:
將所述關(guān)注詞條的詞頻與所述對比詞條的詞頻之差作為所述詞頻相似度;
方法2:
將所述關(guān)注詞條的詞頻與所述對比詞條的詞頻的比值和所述比值的倒數(shù)這兩者中較大的一個作為所述詞頻相似度;
方法3:
將所述關(guān)注詞條的詞頻的對數(shù)與所述對比詞條的詞頻的對數(shù)的比值和該比值的倒數(shù)這兩者中較大的一個作為所述詞頻相似度。
4.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置還包括:一詞多譯處理單元,用于在所述關(guān)注詞條具有兩個或更多個對比詞條時,根據(jù)預(yù)定的標準選擇預(yù)定數(shù)目的對比詞條;
詞頻調(diào)整單元,用于判斷所述關(guān)注語言中的所有所述關(guān)注詞條的詞頻在整體上是否明顯高于或低于所述對比語言中的所有所述對比詞條的詞頻,如果明顯高于或低于所述對比語言中的所有所述對比詞條的詞頻,則進行詞頻調(diào)整,使所述關(guān)注語言中的所有所述關(guān)注詞條的詞頻在整體上與所述對比語言中的所有所述對比詞條的詞頻在整體上相接近;以及
詞條選擇條件處理單元(807),用于確定所述詞條選擇單元(13)確定出的字典用詞條的多少。
5.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述詞條選擇單元(13)根據(jù)以下標準選擇字典用詞條:
所述詞頻相似度在預(yù)定的閾值范圍內(nèi)。
6.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置還包括趨勢確定單元(15),所述趨勢確定單元根據(jù)所述關(guān)注詞條的詞頻,對所述關(guān)注詞條與所述對比詞條組成的翻譯詞對進行排序;
詞條選擇單元(13)根據(jù)以下標準選擇字典用詞條:
所述翻譯詞對的詞頻相似度在預(yù)定的閾值范圍內(nèi);并且
排序在后的翻譯詞對的詞頻相似度小于排序在前的翻譯詞對的詞頻相似度。
7.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述多語語料涉及三種或更多種語言,所述詞典生成裝置還包括對比語言設(shè)置單元,所述對比語言設(shè)置單元將所述多語語料所涉及的語言中所述關(guān)注語言之外的語言集總地設(shè)為對比語言,所述對比詞條的詞頻是指所述關(guān)注詞條在各種對比語言中的對比詞條的詞頻的和。
8.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述多語語料涉及三種或更多種語言,所述詞典生成裝置還包括對比語言設(shè)置單元,所述對比語言設(shè)置單元逐一將所述多語語料所涉及的語言中所述關(guān)注語言之外的語言設(shè)置為對比語言,所述詞條選擇單元將針對各對比語言選出的各關(guān)注詞條集合中所共有的關(guān)注詞條設(shè)為最終的關(guān)注詞條。
9.根據(jù)權(quán)利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置包括一詞多譯處理單元,所述一詞多譯處理單元用于在所述關(guān)注詞條具有兩個或更多個對比詞條時,根據(jù)預(yù)定的標準選擇預(yù)定數(shù)目的對比詞條,其中,所述一詞多譯處理單元依據(jù)下列排序方法中的一種或更多種對所述關(guān)注詞條和所述對比詞條組成的翻譯詞對進行排序,并選取排序最前的翻譯詞對中的詞條作為字典用詞條:
排序方法1:根據(jù)所述對比詞條的詞頻,詞頻高的排在前面;
排序方法2:根據(jù)所述翻譯詞對的詞頻相似度,詞頻相似度高的排在前面;
排序方法3:根據(jù)所述翻譯詞對中的所述關(guān)注詞條和所述對比詞條的共現(xiàn)頻率,共現(xiàn)頻率高的排在前面;
排序方法4,根據(jù)所述對比詞條在所述多語語料中出現(xiàn)的先后順序,先出現(xiàn)的排在前面;以及
排序方法5,根據(jù)所述翻譯詞對中的所述關(guān)注詞條和所述對比詞條的詞性相同與否,詞性相同的排在前面。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810091300.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:可自動再生濾網(wǎng)的過濾器
- 下一篇:三通換向閥





