[發(fā)明專利]一種拼音流切分方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310121923.8 | 申請(qǐng)日: | 2013-04-09 |
| 公開(公告)號(hào): | CN104102661B | 公開(公告)日: | 2018-02-09 |
| 發(fā)明(設(shè)計(jì))人: | 熊小鵬;劉磊 | 申請(qǐng)(專利權(quán))人: | 重慶新媒農(nóng)信科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 重慶市前沿專利事務(wù)所(普通合伙)50211 | 代理人: | 郭云 |
| 地址: | 401121 重慶市北部新區(qū)高新*** | 國(guó)省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 拼音 切分 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種能夠提高速度和準(zhǔn)確率的拼音流切分方法及系統(tǒng)。
背景技術(shù)
拼音字符串的音節(jié)切分技術(shù)是指把用戶輸入的拼音字符串(不包含聲調(diào)、音節(jié)分割符等)切分為若干個(gè)符合漢語語法規(guī)則的音節(jié)字符串的過程,通常采用拼音分隔符“’”來連接切分后的各音節(jié)子串。例如用戶輸入的拼音字符串“woaibeijingtiananmen”可切分為“wo’ai’bei’jing’tian’an’men”。音節(jié)切分技術(shù)是拼音向漢字轉(zhuǎn)換的基礎(chǔ),有效的音節(jié)切分可降低用戶負(fù)擔(dān),增強(qiáng)用戶體驗(yàn)性。
目前,常用的音節(jié)切分方式是基于統(tǒng)計(jì)的切分方式,即通過概率算法,計(jì)算用戶輸入拼音串中拼音字符連續(xù)的概率,從而獲取切分結(jié)果,這種方法雖然能夠較好地適應(yīng)各種拼音應(yīng)用,具有較強(qiáng)的擴(kuò)展性與適應(yīng)性,但算法復(fù)雜、計(jì)算量大、音節(jié)切分速度慢,準(zhǔn)確率低。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種拼音流切分方法及系統(tǒng),該拼音流切分方法算法簡(jiǎn)潔,能夠提高音節(jié)切分速度和準(zhǔn)確率。
為了實(shí)現(xiàn)本發(fā)明的上述目的,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了一種拼音流切分方法,包括如下步驟:
S1,數(shù)據(jù)存儲(chǔ):分別在存儲(chǔ)器的字符存儲(chǔ)陣列的M個(gè)字符存儲(chǔ)單元中存儲(chǔ)一個(gè)字母和一個(gè)指針,在存儲(chǔ)器的音節(jié)存儲(chǔ)陣列的M個(gè)音節(jié)存儲(chǔ)子陣列中存儲(chǔ)音節(jié)串,所述字符存儲(chǔ)單元與所述音節(jié)存儲(chǔ)子陣列一一對(duì)應(yīng),所述字符存儲(chǔ)單元中的指針指向所述字符存儲(chǔ)單元所對(duì)應(yīng)的音節(jié)存儲(chǔ)子陣列,所述音節(jié)存儲(chǔ)陣列的第N個(gè)音節(jié)存儲(chǔ)子陣列包括PN個(gè)音節(jié)存儲(chǔ)單元,所述PN個(gè)音節(jié)存儲(chǔ)單元中依次存儲(chǔ)有所述音節(jié)存儲(chǔ)子陣列對(duì)應(yīng)的字符存儲(chǔ)單元中存儲(chǔ)的字母為首字母的音節(jié)串,所述M、N、PN均為正整數(shù),所述N=1,2,…,M;
S2,數(shù)據(jù)查詢:控制器在接收到通過人機(jī)交互界面輸入的檢索串時(shí),根據(jù)字符存儲(chǔ)單元與音節(jié)存儲(chǔ)子陣列的對(duì)應(yīng)關(guān)系在存儲(chǔ)器中查找與所述檢索串對(duì)應(yīng)的音節(jié)串,對(duì)檢索串進(jìn)行切分,并指令人機(jī)交互界面對(duì)所有音節(jié)串組合進(jìn)行顯示。
本發(fā)明的拼音流切分方法利用字符存儲(chǔ)單元存儲(chǔ)的字母與音節(jié)存儲(chǔ)子陣列存儲(chǔ)的音節(jié)串的對(duì)應(yīng)關(guān)系對(duì)檢索串進(jìn)行切分,能夠提高音節(jié)切分速度和準(zhǔn)確率。
在本發(fā)明的一種優(yōu)選實(shí)施例中,控制器在接收到通過人機(jī)交互界面輸入的檢索串時(shí),根據(jù)字符存儲(chǔ)單元與音節(jié)存儲(chǔ)子陣列的對(duì)應(yīng)關(guān)系在存儲(chǔ)器中查找與所述檢索串對(duì)應(yīng)的音節(jié)串組合的步驟為:
S21:控制器獲取檢索串;
S22:控制器判斷檢索串是否包含漢字,如果檢索串包含漢字則將所述檢索串中的漢字轉(zhuǎn)化為拼音;
S23:從所述檢索串中提取待分割檢索串;
S24:控制器判斷所述待分割檢索串是否為空,如果待分割檢索串為空,則結(jié)束拼音流切分算法,將結(jié)果集通過人機(jī)交互界面進(jìn)行顯示;
S25:控制器獲取待分割檢索串中的首字符并根據(jù)字符存儲(chǔ)單元與音節(jié)存儲(chǔ)子陣列的對(duì)應(yīng)關(guān)系在存儲(chǔ)器中查找所述首字符的字符匹配集;
S26:判斷所述字符匹配集中首字符音節(jié)串的后續(xù)字符的字符匹配集是否為空,如果為空,則說明當(dāng)前音節(jié)分割方式錯(cuò)誤,將后續(xù)字符的字符匹配集是空的音節(jié)串刪除,并將該音節(jié)串相應(yīng)的待分割檢索串刪除,返回步驟S23;
S27:判斷字符匹配集中的音節(jié)串個(gè)數(shù)是否為1,如果為1,則將音節(jié)串置入結(jié)果集并將所述音節(jié)串從所述檢索串中刪除,返回步驟S23;
S28:將字符匹配集中的音節(jié)串存入結(jié)果集中,分別將音節(jié)串從檢索串中刪除,返回步驟S23。
本發(fā)明提取待分割檢索串對(duì)只對(duì)待分割檢索串進(jìn)行切分,并刪除字符匹配集中首字符音節(jié)串的后續(xù)字符的字符匹配集為空的字符匹配集,大大提高了音節(jié)切分速度和切分效率,另外,本發(fā)明對(duì)檢索串的所有音節(jié)切分結(jié)果進(jìn)行顯示,提高了用戶使用的便利性。
在本發(fā)明的另一種優(yōu)選實(shí)施例中,當(dāng)所述檢索串包含漢字時(shí),控制器將所述檢索串中的漢字轉(zhuǎn)化為用分隔符分隔的拼音,提取所述檢索串中非中文拼音的部分作為待分割檢索串。
本發(fā)明將檢索串中的漢字轉(zhuǎn)化為用分隔符分隔的拼音,提取檢索串中非中文拼音的部分作為待分割檢索串,能夠提高音節(jié)切分速度和切分效率。
在本發(fā)明的再一種優(yōu)選實(shí)施例中,當(dāng)所述檢索串包含分隔符時(shí),被所述分隔符分割的檢索串單元分別作為待分割檢索串。
本發(fā)明當(dāng)檢索串包含分隔符時(shí),被分隔符分割的檢索串單元分別作為待分割檢索串,能夠提高音節(jié)切分速度和切分效率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶新媒農(nóng)信科技有限公司,未經(jīng)重慶新媒農(nóng)信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310121923.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





