[發明專利]一種拼音的長句連打輸入方法及其系統在審
| 申請號: | 201610029530.8 | 申請日: | 2016-01-16 |
| 公開(公告)號: | CN105718070A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 周誠 | 申請(專利權)人: | 上海高欣計算機系統有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 上海晨皓知識產權代理事務所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 201203 上海市浦東新區自由*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 拼音 長句 連打 輸入 方法 及其 系統 | ||
技術領域
本發明涉及輸入法領域,特別涉及拼音輸入。
背景技術
隨著計算機技術的不斷發展和進步,拼音輸入法的技術也有了進步和提 高,特別是拼音的長句連打輸入,現有技術是根據上下文在給定拼音條件下 找到一個最優的句子,可將其視為一個動態規劃問題,找到最短路徑。其核 心技術為采用隱馬爾科夫模型,利用統計自然語言的處理方式進行運算和處 理,得到最優的句子。馬爾科夫的缺點在于它的獨立性假設,其假設忽略了 時刻發生的事件與時刻之前所有事件之間的聯系,但也正是因為有了這樣的 假設,使得算法變得簡單明了。隱馬爾科夫模型采用生成式的聯合概率模型 來求解這種條件概率問題,這種方法不適合處理很多特征描述觀察序列的情 況。馬爾科夫的假設,致使模型的階數越高時,反而不會給模型帶來好的統 計結果,即使階數再提高,也無法覆蓋所有的語言現象。所有這些缺陷,造 成拼音長句連打的整句或者長句連打后的輸出結果精準度不高。
發明內容
本發明的目的在于提供一種拼音的長句連打輸入方法及其系統,通過建 立雙向隱馬爾可夫BHMM模型,提高了拼音長句連打輸出正確結果的精準 度。
為解決上述技術問題,本發明的實施方式提供了一種拼音的長句連打輸 入方法,包含以下步驟:
預先建立雙向隱馬爾可夫BHMM模型;在所述BHMM模型中,長句中 的每個漢字的出現概率由正向傳播時該漢字及該漢字的前N個漢字在數據庫 中同時出現的次數,反向傳播時該漢字及該漢字的后N個漢字在數據庫中同 時出現的次數決定;所述N為大于1的自然數;
持續接收用戶輸入的拼音碼;
根據所述BHMM模型和所述持續接收到的拼音碼,獲取在該BHMM模 型中出現概率最大的各漢字所組成的長句;
輸出所述獲取的在該BHMM模型中出現概率最大的各漢字所組成的長 句。
與此相應,本發明的另一個目的是提供拼音的長句連打輸入系統,包含: 客戶端與云端服務器;
云端服務器包含:
模型建立模塊,用于預先建立雙向隱馬爾可夫BHMM模型;在所述 BHMM模型中,長句中的每個漢字的出現概率由正向傳播時該漢字及該漢字 的前N個漢字在數據庫中同時出現的次數,反向傳播時該漢字及該漢字的后 N個漢字在數據庫中同時出現的次數決定;所述N為大于1的自然數;
匹配模塊,用于根據所述BHMM模型和來自所述客戶端的持續接收到 的拼音碼,獲取在該BHMM模型中出現概率最大的各漢字所組成的長句;
返回模塊,用于將所述匹配模塊獲取的長句返回至所述客戶端;
所述客戶端包含:
接收模塊,用于持續接收用戶輸入的拼音碼;
發送模塊,用于將所述持續接收到的拼音碼發送至所述云端服務器;
輸出模塊,用于輸出所述云端服務器返回的所述長句。
本發明實施方式相對于現有技術而言,提供了一種拼音的長句輸入方法 和長句輸入系統,通過建立雙向隱馬爾可夫BHMM模型,提高了在整句或 者長句中拼音轉換漢字時輸出正確結果的精度。
另外,所述BHMM模型建立在云端服務器內;客戶端將所述持續接收 到的拼音碼實時發送至所述云端服務器,由所述云端服務器根據BHMM模 型和所述持續接收到的拼音碼,實時獲取所述長句,優化了拼音轉化漢字的 效率。
另外,所述根據BHMM模型和所述持續接收到的拼音碼,獲取在該 BHMM模型中出現概率最大的各漢字所組成的長句的步驟中,根據以下公式 獲取所述長句:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海高欣計算機系統有限公司,未經上海高欣計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610029530.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:眼鏡架
- 下一篇:一種建筑物結構改造信息化監測系統





