[發明專利]一種用于信息檢索的任意大小n-gram頻率統計方法及其裝置無效
| 申請號: | 200910044547.0 | 申請日: | 2009-10-16 |
| 公開(公告)號: | CN102043775A | 公開(公告)日: | 2011-05-04 |
| 發明(設計)人: | 張偉;孫星明;孫德才 | 申請(專利權)人: | 湖南大學;張偉;孫星明;孫德才 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 *** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 信息 檢索 任意 大小 gram 頻率 統計 方法 及其 裝置 | ||
1.一種用于信息檢索的任意大小n-gram頻率統計方法及其裝置,其特征在于,包括:
文本預處理單元:對于給定的文本和字符串,對其進行2-gram切分和編碼;
索引單元:將所得2-gram在文本中的位置信息保存到二級變長索引中,以保證對2-gram高效率的存儲和檢索;
n-gram頻率計算單元:在0(1)的時間效率內檢索2-gram在給定文本和字符串中的位置信息,計算得到任意長度n-gram統計信息。
2.如權利要求1中所述文本預處理單元,其特征在于,所有屬于GB2312-80字符集的漢字根據其內碼利用hash函數映射到從0開始的連續整數空間中;
3.如權利要求1中所述文本預處理單元,其特征在于,所有2-gram的位置編碼包含了其所在的文件名、文件中的行、列信息,為唯一編碼。
4.如權利要求1中所述的索引單元,其特征在于,二級變長索引結構中,每一級索引結構分別對應2-gram中的前后兩個漢字;
5.如權利要求1中所述的索引單元,其特征在于,二級變長索引結構中每一級索引結構的長度都是根據當前所處理過的給定文獻或字符串中所包含漢字不同而改變的,其當前最大長度取決于對應的2-gram中相應漢字編碼對應的最大映射值;
6.如權利要求1中所述索引單元,其特征在于,每一級索引結構中的每個入口位置所對應的邏輯地址都唯一對應了一個GB2312-80字符集中的一個漢字編碼,根據漢字編碼可以在0(1)的時間效率內定位到對應的位置;
7.如權利要求1中所述n-gram頻率計算單元,其特征在于,對于N取任意值(N≠2),可通過求并集(N=1)和交集(N>2)獲取對應的地址列表。對于N=2,則可直接獲取其地址列表。
8.如權利要求7中所述裝置,其特征在于,所有直接獲取的位置值列表,其位置值都是升序排列的。
9.如權利要求7中所述裝置,其特征在于,交集運算充分利用了位置值升序排列的特性。
10.一種N-gram頻率計算裝置,其特征在于,包括:文本預處理模塊、索引生成模塊、頻率計算模塊,其中:
文本預處理模塊,切分給定的文本和字符串,得到2-gram,將2-gram中的兩個漢字漢字(GB2312-80)分別映射到從0開始的連續整數空間;
索引生成模塊,將得到的2-gram位置值信息保存到二級變長索引中;
頻率計算模塊,根據不同的n值,用不同的方法計算得到其位置值列表,獲取頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學;張偉;孫星明;孫德才,未經湖南大學;張偉;孫星明;孫德才許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910044547.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于腳本虛擬機的漏洞通用檢測方法和系統
- 下一篇:電子裝置控制方法及電子裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





