[發(fā)明專利]中文信息檢索方法、中文信息檢索引擎及嵌入式終端有效
| 申請(qǐng)?zhí)枺?/td> | 200910235592.4 | 申請(qǐng)日: | 2009-09-29 |
| 公開(公告)號(hào): | CN102033891A | 公開(公告)日: | 2011-04-27 |
| 發(fā)明(設(shè)計(jì))人: | 吳躍進(jìn) | 申請(qǐng)(專利權(quán))人: | 高德軟件有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 信息 檢索 方法 引擎 嵌入式 終端 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端。
背景技術(shù)
隨著信息化時(shí)代的到來和發(fā)展步伐的不斷加快,形成了大量的中文信息,人們?cè)谌粘9ぷ鳌⑸睢W(xué)習(xí)中不得不經(jīng)常面臨如何從海量中文信息中,找到有用信息的問題。
為了解決上述問題,科研人員提出了各種中文信息檢索技術(shù),目前,常用的中文信息檢索技術(shù)包括:文本檢索技術(shù),該技術(shù)改進(jìn)和應(yīng)用了三種流行的檢索模型:布爾模型、概率模型和向量空間模型。
發(fā)明人在對(duì)現(xiàn)有中文信息檢索技術(shù)進(jìn)行研究和實(shí)踐過程中,發(fā)現(xiàn)現(xiàn)有中文信息檢索技術(shù),要么在中文信息資源比較龐大的情況下,檢索速度緩慢,檢索的目標(biāo)中文信息中有很大一部分不是用戶真實(shí)需要的,要么在輸入檢索信息較少情況下,不具備檢索到目標(biāo)中文信息的能力。因此,亟需提出一種能夠從海量中文信息中快速檢索目標(biāo)中文信息的中文信息檢索技術(shù)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例要解決的技術(shù)問題是提供一種中文信息檢索方法、中文信息檢索引擎及嵌入式終端,能夠從海量目標(biāo)中文信息中快速檢索目標(biāo)中文信息。
為解決上述技術(shù)問題,本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明實(shí)施例提供了一種中文信息檢索方法,所述方法包括:
接收檢索關(guān)鍵字的全拼組合,若所述全拼組合是接收的第一個(gè)全拼組合,則
從所述全拼組合中提取聲母的首字母及韻母;
在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì)應(yīng)的起始偏移量;
在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始,檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;
從預(yù)置的檢索索引集中,讀取所述起始偏移量到終止偏移量之間的全拼索引記錄,每條全拼索引記錄包括:目標(biāo)中文信息全拼組合序列及目標(biāo)中文信息偏移量;
判斷所述檢索關(guān)鍵字的全拼組合與目標(biāo)中文信息全拼組合序列中的第一個(gè)全拼組合是否相同,如果相同,則
根據(jù)所述目標(biāo)中文信息偏移量,從預(yù)置的目標(biāo)中文信息索引集中,檢索目標(biāo)中文信息。
優(yōu)選地,上述方法進(jìn)一步包括:
將檢索到的目標(biāo)中文信息及目標(biāo)中文信息全拼組合序列作為一條檢索結(jié)果,添加到第一檢索結(jié)果集中。
優(yōu)選地,若所述全拼組合是第i個(gè)全拼組合,則上述方法進(jìn)一步包括:
從第i-1檢索結(jié)果集的檢索結(jié)果中,讀取目標(biāo)中文信息全拼組合序列;
若第i-1個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的結(jié)尾,則
判斷第i個(gè)全拼組合與目標(biāo)中文信息全拼組合序列中第j+1個(gè)分詞的第一個(gè)全拼組合序列是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中;
其中,i為大于等于2的自然數(shù),j為大于等于1的自然數(shù)。
優(yōu)選地,若第i-1個(gè)全拼組合是所述目標(biāo)中文信息全拼組合序列中第j個(gè)分詞的第k個(gè)全拼組合,則上述方法進(jìn)一步包括:
判斷第i個(gè)全拼組合與第j個(gè)分詞中第k+1個(gè)全拼組合是否相同,如果相同,則將所述檢索結(jié)果添加到第i檢索結(jié)果集中。
優(yōu)選地,上述方法進(jìn)一步包括:
從目標(biāo)中文信息索引集中,讀取目標(biāo)中文信息,對(duì)所述目標(biāo)中文信息進(jìn)行分詞,獲得n個(gè)分詞;
解析構(gòu)成目標(biāo)中文信息每個(gè)漢字的拼音,獲取所述拼音的全拼組合;
按照分詞結(jié)果,對(duì)拼音的全拼組合進(jìn)行排列組合,得到n條全拼組合序列,n為大于等于1的自然數(shù);
獲取所述目標(biāo)中文信息在目標(biāo)中文信息索引集中的偏移量;
將所述偏移量分別與n條全拼組合序列進(jìn)行組合,得到n條全拼索引記錄;
將所述n條全拼索引記錄存入全拼組合序列中首個(gè)全拼組合對(duì)應(yīng)的拼音在檢索索引集中對(duì)應(yīng)的數(shù)據(jù)簇內(nèi);其中,n是大于等于1的自然數(shù)。
本發(fā)明實(shí)施例還提供了一種中文信息檢索引擎,所述引擎包括:
全拼組合接收單元,用于接收檢索關(guān)鍵字的全拼組合;
接收信息記錄單元,用于判斷所述全拼組合接收單元接收的全拼組合是否為第一個(gè)全拼組合,如果是,則觸發(fā)字母提取單元;
字母提取單元,用于從所述全拼組合中提取所述檢索關(guān)鍵字對(duì)應(yīng)拼音的聲母的首字母及韻母;
一級(jí)索引偏移量檢索單元,用于在預(yù)置的二級(jí)檢索索引集中,檢索所述首字母對(duì)應(yīng)的起始偏移量;
索引偏移量檢索單元,用于在一級(jí)檢索索引集中所述起始偏移量對(duì)應(yīng)的位置開始,檢索所述首字母和韻母構(gòu)成的拼音對(duì)應(yīng)的起始偏移量和終止偏移量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于高德軟件有限公司,未經(jīng)高德軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910235592.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





