[發明專利]一種中文詞庫的構造方法無效
| 申請號: | 200710050516.7 | 申請日: | 2007-11-15 |
| 公開(公告)號: | CN101158955A | 公開(公告)日: | 2008-04-09 |
| 發明(設計)人: | 傅彥;尚明生;陳安龍;王全禮;史偉 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 | 代理人: | 溫利平 |
| 地址: | 611731四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 詞庫 構造 方法 | ||
1.一種中文詞庫的構造方法,其特征在于,包括以下步驟:
(1)、將首字相同的詞條放到一張哈希表中,相同首字的詞條在哈希表中的位置由哈希函數根據構成詞條的漢字編碼計算出的哈希值確定;
(2)、建立一個數組,該數組的索引值依據詞條首字的漢字編碼確定,數組元素值指向與索引值相對應的詞條首字的哈希表;
(3)、依據詞條首字的漢字編碼,確定數組索引值,在數組中找到相應的數組元素,找到該詞條首字的哈希表,再根據構成詞條的漢字編碼,用哈希函數計算出的哈希值,確定該詞條在哈希表中的位置;
(4)根據詞條的位置來對詞條進行操作。
2.根據權利要求1所述的中文詞庫的構造方法,其特征在于,所述的相同首字的詞條在哈希表中的位置由哈希函數根據去掉首字后的構成詞條的漢字編碼計算出的哈希值確定。
3.根據權利要求2所述的中文詞庫的構造方法,其特征在于,所述的哈希函數為:
其中,n表示詞條去掉首字后的字數,gb[i][0]和gb[i][1]分別表示第i個漢字的GB碼的高位值和低位值。
4.根據權利要求2所述的中文詞庫的構造方法,其特征在于,所述的哈希函數為:
其中,n表示詞條去掉首字后的字數,gb[i][0]和gb[i][1]來表示第i個字的GB碼的高位和低位,Seq為解決沖突時的序列號。
5.根據權利要求1所述的中文詞庫的構造方法,其特征在于,所述的數組為二維數組,詞條首字GB碼的高位和低位作為該二維數組的索引值。
6.根據權利要求1所述的中文詞庫的構造方法,其特征在于,所述的中文詞庫在磁盤上的存儲使用漢字GB碼,將首字相同的詞條放到文本的同一行中,其數據結構包括首字、詞條數量、是否能單獨成詞標記以及各個詞條,各個詞條之間用特殊符號隔離。
7.根據權利要求1所述的中文詞庫的構造方法,其特征在于,所述的數組元素值為存儲哈希表的首地址。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710050516.7/1.html,轉載請聲明來源鉆瓜專利網。





