[發(fā)明專利]詞典生成裝置以及信息檢索裝置有效
| 申請?zhí)枺?/td> | 200810091300.X | 申請日: | 2008-04-28 |
| 公開(公告)號: | CN101571852A | 公開(公告)日: | 2009-11-04 |
| 發(fā)明(設計)人: | 夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三友知識產(chǎn)權代理有限公司 | 代理人: | 李 輝;孫海龍 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞典 生成 裝置 以及 信息 檢索 | ||
技術領域
本發(fā)明涉及詞典編輯及信息檢索領域,具體而言,涉及使用多語信息生成詞典,以及在信息檢索裝置中使用該詞典構建特征向量的方法。
背景技術
隨著互聯(lián)網(wǎng)的發(fā)展和存儲技術的提高,計算機可讀的文本信息也越來越多。其海量的信息一方面給人們獲取自身感興趣信息帶來機會,另一方面也迫使人們往往要花費大量的人力和物力在信息的汪洋大海中查找有用信息。信息檢索技術正是為了解決這一需求而產(chǎn)生的。在信息檢索系統(tǒng)中,為了進行快速檢索,或者獲得更多的信息(如詞性、同現(xiàn)頻率、命名實體等),或者對關鍵詞進行評估,通常使用詞典來輔助信息檢索過程。關于詞典的生成和編輯,有很多文獻,例如:
“Dictionary?memory?for?text?processing?using?word?frequency?and?wordrecency?occurrence?information”,美國專利公開號:US?5,652,898;
“System?for?creating?a?dictionary”,美國專利公開號:US?6,192,333;
“Dictionary?and?index?creating?system?and?document?retrieval?system”,美國專利公開號:US?6,493,713;
“Key?word?dictionary?producing?method?and?apparatus”,美國專利公開號:US?6,948,121;
“Method?and?apparatus?for?adapting?a?class?entity?dictionary?used?withlanguage?models”,美國專利公開號:US?7,124,080;
《詞典、分段和語言模型聯(lián)合優(yōu)化的系統(tǒng)和迭代方法》(專利號:CN1387651A);以及
《用于調試與語言模型一起使用的類實體詞典的方法和設備》(專利號:CN1419184A)。
在信息檢索中,使用合適的詞典,特別是使用和檢索模型密切相關的詞典將會對檢索系統(tǒng)的性能帶來很大的幫助。在信息檢索的向量空間模型中,詞典對于向量的構造更是起到了關鍵的作用。向量空間模型采用TF-IDF(Term-Frequency?Inverse-Document-Frequency)將文檔轉化為向量形式,通過計算相似度,得到與用戶檢索相關的結果。在構造向量的過程中,參與向量構造的詞匯將對系統(tǒng)的性能起很大的作用。關于向量空間模型,有很多現(xiàn)有的專利文獻進行了探討,如:
《信息檢索系統(tǒng)》(專利號:CN1324046A);
《文檔和信息檢索方法及設備》(專利號:CN1507596A);以及
《文本檢索裝置及方法》(專利號:CN1741012A)。
上述文獻主要集中在項的表示、權重的計算等方面。事實上,由于在構建文檔向量過程中,除少數(shù)禁用詞不參與向量構建以外。文檔中其它的詞都將參與向量的構建。這樣一方面給向量帶來了大量的噪聲,另一方面也會造成向量維數(shù)過高,在文檔較長的情況下會給運算造成困難。另外,向量中的噪聲過多,會造成檢索系統(tǒng)的性能下降,而且由于過多的噪聲導致的向量維數(shù)過高也嚴重影響了系統(tǒng)的速度。但是目前的信息檢索系統(tǒng)卻沒有有效的方法來解決這一問題。
發(fā)明內容
本發(fā)明鑒于以上情況作出,提出了一種詞典建立方法以及使用這種詞典的信息檢索裝置,用于解決或緩解現(xiàn)有技術中存在的一種或更多種缺點,至少提供一種有益的選擇。
為了實現(xiàn)上述目的,本申請?zhí)峁┝艘韵碌陌l(fā)明:
發(fā)明1、一種詞典生成裝置,其特征在于,所述詞典生成裝置包括:詞頻統(tǒng)計部,用于統(tǒng)計在包括關注語言和對比語言的多語語料中,所述關注語言的關注詞條的詞頻以及所述關注詞條的對比詞條的詞頻,所述對比詞條是所述關注詞條的所述對比語言的翻譯詞;詞頻相似度計算單元,用于計算所述關注詞條的詞頻和所述對比詞條的詞頻的詞頻相似度;以及詞條選擇單元,根據(jù)所述詞頻相似度計算單元計算出的詞頻相似度,確定字典用詞條。
發(fā)明2、根據(jù)發(fā)明1所述的詞典生成裝置,其特征在于,所述雙語語料或多語語料是多語對齊語料。
發(fā)明3、根據(jù)發(fā)明1所述的詞典生成裝置,其特征在于,所述詞頻相似度計算單元依據(jù)以下方法之一計算所述詞頻相似度:
方法1:
將所述關注詞條的詞頻與所述對比詞條的詞頻之差作為所述詞頻相似度;
方法2:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810091300.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:可自動再生濾網(wǎng)的過濾器
- 下一篇:三通換向閥





