[發(fā)明專利]信息存儲及檢索方法有效
| 申請?zhí)枺?/td> | 200710079832.7 | 申請日: | 2007-02-14 |
| 公開(公告)號: | CN101246478A | 公開(公告)日: | 2008-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 姜德榮;董振寧;吳躍進(jìn) | 申請(專利權(quán))人: | 高德軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28;G06F3/023 |
| 代理公司: | 中國商標(biāo)專利事務(wù)所有限公司 | 代理人: | 張曉冬 |
| 地址: | 102200北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 存儲 檢索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及中文信息的存儲及檢索領(lǐng)域,尤指一種信息存儲及檢索方法。
背景技術(shù)
隨著信息化時代的到來和發(fā)展步伐的不斷加快,中文信息檢索技術(shù)也已逐步滲透到人們的日常生活、工作和學(xué)習(xí)中,對中文信息檢索技術(shù)的檢索性能和質(zhì)量也提出了更高的要求。所述中文信息檢索指在由中文數(shù)據(jù)構(gòu)成的文檔集內(nèi)查詢或者檢索符合查詢條件的文檔對象。
20世紀(jì)80年代中期以后,由于計(jì)算機(jī)處理能力的大大提高和使用的逐步普及,中文信息檢索技術(shù)的研究進(jìn)入一個快速發(fā)展的黃金期,各種中文信息索引方法、檢索算法以及實(shí)用化系統(tǒng)不斷涌現(xiàn),各種基于中文信息檢索技術(shù)的商用產(chǎn)品也紛紛出現(xiàn)。如,文本檢索技術(shù),改進(jìn)和應(yīng)用了當(dāng)前較為流行的三種信息信息檢索模型:布爾模型、概率模型和向量空間模型。TRS(拓爾思),從1994年開始就推出文本檢索系統(tǒng)TRS?1.0,經(jīng)過多年的研究與改進(jìn),如今已經(jīng)發(fā)展到第四代產(chǎn)品(基于自然語言處理的知識檢索)。
在上世紀(jì)80年代中葉,少數(shù)研究人員開始研究中文信息檢索技術(shù)的另一分支--拼音檢索;同時,隨著PDA、手機(jī)、觸摸屏等移動終端的廣泛應(yīng)用,且這些設(shè)備也不便于用戶快速輸入信息,為此“漢字拼音首字母檢索法”也就應(yīng)運(yùn)而生。2001年,拼音首字母檢索法首先出現(xiàn)于期刊上],經(jīng)過幾年的研究與發(fā)展,不斷提出了各種拼音檢索法:形序排檢法、音序排檢法、主題或分類排檢法、時序或地序排檢法等。
上述各種拼音檢索法,都可保證“輸入盡可能少的信息即可查詢到中文信息”的能力,但在中文數(shù)據(jù)信息數(shù)據(jù)量比較龐大的情況下,就會出現(xiàn)“返回符合檢索條件的中文數(shù)據(jù)信息過多,而往往不是用戶真實(shí)需要的,無法保證快速、準(zhǔn)確的給用戶返回目標(biāo)結(jié)果”。
發(fā)明內(nèi)容
本發(fā)明要解決的問題是提供一種能夠快速準(zhǔn)確地返回目標(biāo)結(jié)果的基于中文語義的信息存儲及檢索方法。
為了解決上述問題,本發(fā)明基于中文語義的信息存儲方法的技術(shù)方案包括:
對中文數(shù)據(jù)進(jìn)行分詞處理以獲得若干單詞;
獲取每個單詞內(nèi)所有漢字的漢字碼;
在簡體中文字符碼表內(nèi)根據(jù)所述漢字碼獲取其對應(yīng)的漢語拼音字符串;
從漢語拼音字符串中抽析出每個拼音的首字母;
將所述中文數(shù)據(jù)及其對應(yīng)的若干單詞的拼音首字母序列存入中文數(shù)據(jù)基本信息索引文件作為一條中文數(shù)據(jù)記錄;
在中文數(shù)據(jù)基本信息二級索引文件中,通過中文數(shù)據(jù)標(biāo)識與該中文數(shù)據(jù)標(biāo)識所代表的中文數(shù)據(jù)在中文數(shù)據(jù)基本信息索引文件中的位置的一一對應(yīng)關(guān)系,在中文數(shù)據(jù)基本信息二級索引文件中存放中文數(shù)據(jù)在中文數(shù)據(jù)基本信息索引文件中的偏移量;
將所述單詞在所述中文數(shù)據(jù)基本信息索引文件內(nèi)的所屬的中文數(shù)據(jù)標(biāo)識及在所述中文數(shù)據(jù)記錄內(nèi)的位置存入單詞拼音索引文件內(nèi),所述單詞拼音索引將首字母相同的單詞的相關(guān)信息連續(xù)存放在同一數(shù)據(jù)簇內(nèi);
將以每個字母為開頭的數(shù)據(jù)簇在所述單詞拼音索引文件內(nèi)的位置存入單詞拼音二級索引文件。
相應(yīng)地,本發(fā)明基于中文語義的信息檢索方法的技術(shù)方案包括:
A1)接收檢索字母;
A2)判斷所述檢索字母是否是第一個字母,執(zhí)行步驟A3),否則執(zhí)行A7);
A3)從單詞拼音二級索引文件中獲得以所述檢索字母為開頭的單詞拼音索引的數(shù)據(jù)簇在單詞拼音索引文件內(nèi)的起始偏移位置和終止偏移位置;
A4)在所述單詞拼音索引內(nèi)從所述起始偏移位置處開始獲取所有以所述檢索字母為開頭的單詞所屬的中文數(shù)據(jù)標(biāo)識以及所述單詞在所屬的中文數(shù)據(jù)內(nèi)的位置,直到獲取到所述終止偏移位置在所述單詞拼音索引內(nèi)對應(yīng)的位置,進(jìn)入步驟A5);
A5)根據(jù)所述中文數(shù)據(jù)標(biāo)識從中文數(shù)據(jù)二級索引文件內(nèi)獲得其對應(yīng)的中文數(shù)據(jù)記錄在中文數(shù)據(jù)索引文件內(nèi)的位置;
A6)根據(jù)中文數(shù)據(jù)記錄在中文數(shù)據(jù)索引內(nèi)的位置取出所述中文數(shù)據(jù)記錄,并與所述中文數(shù)據(jù)標(biāo)識以及單詞在中文數(shù)據(jù)內(nèi)的位置共同構(gòu)成記錄結(jié)果集,執(zhí)行步驟A1);
A7)將所述檢索字母依次與記錄結(jié)果集中的單詞拼音首字母比較,將不包含所述檢索字母的記錄從所述記錄結(jié)果集中刪除,執(zhí)行步驟A1)。
步驟A4)具體包括步驟:
A41)判斷起始偏移位置是否小于終止偏移位置,若是執(zhí)行步驟A42);否則執(zhí)行步驟A5);
A42)從所述起始偏移位置在單詞拼音索引內(nèi)對應(yīng)的位置處取出中文數(shù)據(jù)標(biāo)識以及所述單詞在所屬的中文數(shù)據(jù)內(nèi)的位置;
A43)修改所述起始偏移位置使其指向所述單詞拼音索引內(nèi)的下一條記錄,執(zhí)行步驟A41)。
與現(xiàn)有技術(shù)相比,本發(fā)明信息存儲及檢索方法的有益效果為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于高德軟件有限公司,未經(jīng)高德軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710079832.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





