[發明專利]一種漢字輸入過程中的漢語拼音串處理方法及其系統無效
| 申請號: | 201010134541.5 | 申請日: | 2010-03-25 |
| 公開(公告)號: | CN102200839A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 薛永剛;陳培軍;秦吉勝;侯磊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 漢字輸入 過程 中的 漢語拼音 處理 方法 及其 系統 | ||
技術領域
本申請涉及計算機漢字輸入技術領域,尤其涉及一種漢字輸入過程中的漢語拼音串處理方法及其系統。
背景技術
漢字輸入法(Input?Method?Editor,IME),就是利用鍵盤,根據一定的編碼規則來輸入漢字的一種方法。從實現漢字輸入原理上來看,可以分為兩類:一類是形碼,例如五筆輸入法,這類輸入方式是基于漢字的筆畫進行編碼的;另一類是音碼,例如拼音輸入法,它是建立在漢字讀音的基礎上。
拼音輸入法是按照拼音來輸入漢字的方法。為了能把用戶輸入的拼音轉換為漢字輸出,需要首先對用戶輸入的拼音流進行切分,分割為合法的拼音音節序列,然后將音節序列轉換為漢字。音節是語音的基本單位,漢語普通話中,一個漢字的讀音就是一個音節。每個音節由聲母、韻母和聲調三個部分組成,拼音輸入技術中所稱的音節是指合法的[聲母,韻母]對。如何把拼音輸入流正確切分為合法的拼音音節序列是實現拼音輸入法的關鍵一步。
目前常用的拼音流切分技術包括動態規劃方法。該方法用M矩陣的元素Mij記錄i到j之間的分割代價,對拼音字符串C1C2……CN按音節進行劃分,并用分段函數來計算每個子串Ci……Cj的代價值,最后取其中最小分割代價值所對應的分割結果,作為該拼音串的分割結果。其中,分割代價函數可以表示為:
該種方法由于需要進行分割代價的計算以及比較計算結果,因此計算量較大,必然影響拼音輸入的效率,以及消耗較多的系統資源,并且該拼音串切分方法不支持模糊音輸入。
發明內容
本申請實施例提供了一種漢語拼音串切分方法及其系統,用于解決現有拼音串處理技術系統資源消耗大、效率低以及不支持模糊音輸入的問題。
根據本申請實施例的一個方面,提供了一種漢字輸入過程中的漢語拼音串處理方法,包括如下步驟:
對接收到的漢語拼音串進行切分,分別將所述漢語拼音串中的聲母和韻母作為切分子串得到切分子串序列;
對所述切分子串序列中的切分子串進行擴展,并根據擴展結果生成擴展子串序列集合;
按照音節組成特征對所述擴展子串序列集合中每個擴展子串序列進行音節抽取,得到對應的音節序列;
對各音節序列中的音節進行合法性驗證,并根據驗證結果刪除包含有非法音節的音節序列。
根據本申請實施例的另一個方面,還提供了一種漢字輸入過程中的漢語拼音串處理系統,包括:
切分模塊,用于對接收到的漢語拼音串進行切分,分別將所述漢語拼音串中的聲母和韻母作為切分子串得到切分子串序列;
擴展模塊,用于對所述切分模塊切分得到的切分子串序列中的切分子串進行擴展,并根據擴展結果生成擴展子串序列集合;
音節抽取模塊,用于按照音節組成特征對所述擴展模塊擴展得到的擴展子串序列集合中的每個擴展子串序列進行音節抽取,得到對應的音節序列;
過濾模塊,用于對各音節序列中的音節進行合法性驗證,并根據驗證結果刪除包含有非法音節的音節序列。
本申請的上述實施例,首先對漢語拼音串按設定的切分規則進行切分,然后對切分得到的子串序列進行擴展,從而生成擴展子串序列集合,實現了漢語拼音串的切分以及對切分結果的擴展。根據漢語發音規律,有些聲母,如z、c、s等可以擴展為雙字母聲母,如zh、ch、sh,通過這種擴展可以支持用戶的模糊音輸入。另一方面,本申請實施例中,對擴展得到的擴展子串序列進行音節抽取處理得到音節序列,還要對音節序列中包含的音節的合法性進行驗證,從而提高了音節序列擴展的合理性。與現有技術相比,本申請實施例不需要進行大量的數據計算以及比較算法的處理過程,因此可以降低系統資源消耗以及提高處理效率。
附圖說明
圖1為本申請的實施例提供的漢語拼音輸入法中拼音串的處理流程示意圖之一;
圖2為本申請的實施例提供的漢語拼音輸入法中拼音串的處理流程示意圖之二;
圖3為本申請的實施例提供的應用于漢語拼音輸入法的漢語拼音串處理系統的結構示意圖。
具體實施方式
用戶在使用拼音輸入法輸入漢字的過程中,通常是順序輸入拼音字母,每個漢字的音節之間沒有間隔符分開。拼音切分的主要功能是將用戶輸入的拼音串切分為音節(即[聲母韻母]形式),以便將切分出的音節映射為漢字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010134541.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可就座的立體花卉種植設施
- 下一篇:一種水稻首脫式收獲機





