[發(fā)明專利]一種確定漢字拼音的方法、系統(tǒng)、裝置及存儲介質在審
| 申請?zhí)枺?/td> | 201811312773.8 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN111142681A | 公開(公告)日: | 2020-05-12 |
| 發(fā)明(設計)人: | 胡娟;陳歡;宋奇 | 申請(專利權)人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 成都七星天知識產權代理有限公司 51253 | 代理人: | 袁春曉 |
| 地址: | 100193 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 漢字 拼音 方法 系統(tǒng) 裝置 存儲 介質 | ||
1.一種確定漢字拼音的方法,其特征在于,包括:
獲取待確定拼音的輸入數(shù)據;
處理器對所述輸入數(shù)據進行處理,獲取所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值,所述概率值為對應候選拼音結果為所述輸入數(shù)據的發(fā)音的概率;以及
處理器將概率值最大的候選拼音結果確定為所述輸入數(shù)據的目標拼音,并輸出所述目標拼音。
2.根據權利要求1所述的一種確定漢字拼音的方法,其特征在于,所述處理器對所述輸入數(shù)據進行處理,得到所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值包括:
處理器基于狀態(tài)轉移矩陣及發(fā)射矩陣確定所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值;其中,
所述狀態(tài)轉移矩陣包含訓練語料中全部漢字的拼音組成的集合中,任意一個拼音轉移到集合中其他拼音的概率值以及轉移到其自身的概率值;
所述發(fā)射矩陣包含所述集合中任意一個拼音對應的漢字取訓練語料中各漢字的概率值;
所述訓練語料包括多條由含有漢字的文本及其對應的拼音組成的語料對。
3.根據權利要求2所述的一種確定漢字拼音的方法,其特征在于,所述處理器基于狀態(tài)轉移矩陣及發(fā)射矩陣確定所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值,包括:
確定所述輸入數(shù)據的觀察序列;所述觀察序列是將所述輸入數(shù)據對應的文本拆分成單個字符后的字符序列;
確定所述觀察序列中每個字符的狀態(tài)序列;其中,漢字字符的狀態(tài)序列包含該漢字的全部拼音,數(shù)字字符、字母字符與符號字符的狀態(tài)序列均為其本身;
基于所述狀態(tài)轉移矩陣以及所述發(fā)射矩陣確定所述觀察序列中每個漢字字符取其狀態(tài)序列中不同拼音的概率值,得到所述輸入數(shù)據的至少一種候選拼音結果及其對應的概率值。
4.根據權利要求1所述的一種確定漢字拼音的方法,其特征在于,所述處理器將概率值最大的候選拼音結果確定為所述輸入數(shù)據的目標拼音包括:保留所述觀察序列中每個漢字字符的狀態(tài)序列中概率值最大的拼音,得到所述輸入數(shù)據的目標拼音。
5.一種確定漢字拼音的系統(tǒng),其特征在于,包括獲取模塊,候選拼音確定模塊和目標拼音確定模塊,其中,
所述獲取模塊,用于獲取待確定拼音的輸入數(shù)據;
所述候選拼音確定模塊,對所述輸入數(shù)據進行處理,獲取所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值,所述概率值為對應候選拼音結果為所述輸入數(shù)據的發(fā)音的概率;
所述目標拼音確定模塊,用于將概率值最大的候選拼音結果確定為所述輸入數(shù)據的目標拼音。
6.根據權利要求5所述的確定漢字拼音的系統(tǒng),其特征在于,所述候選拼音確定模塊還用于:
基于狀態(tài)轉移矩陣及發(fā)射矩陣確定所述輸入數(shù)據的至少一種候選拼音結果,以及每一種候選拼音結果對應的概率值;其中,
所述狀態(tài)轉移矩陣包含訓練語料中全部漢字的拼音組成的集合中,任意一個拼音轉移到集合中其他拼音的概率值以及轉移到其自身的概率值;
所述發(fā)射矩陣包含所述集合中任意一個拼音對應的漢字取訓練語料中各漢字的概率值;
所述訓練語料包括多條由含有漢字的文本及其對應的拼音組成的語料對。
7.根據權利要求5所述的一種確定漢字拼音的系統(tǒng),其特征在于,所述候選拼音確定模塊還用于:
確定所述輸入數(shù)據的觀察序列;所述觀察序列是將所述輸入數(shù)據對應的文本拆分成單個字符后的字符序列;
確定所述觀察序列中每個字符的狀態(tài)序列;其中,漢字字符的狀態(tài)序列包含該漢字的全部拼音,數(shù)字字符、字母字符與符號字符的狀態(tài)序列均為其本身;
基于所述狀態(tài)轉移矩陣以及所述發(fā)射矩陣確定所述觀察序列中每個漢字字符取其狀態(tài)序列中不同拼音的概率值,得到所述輸入數(shù)據的至少一種候選拼音結果及其對應的概率值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發(fā)展有限公司,未經北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811312773.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面料及其加工裝置
- 下一篇:可調節(jié)光束的激光路燈
- 同類專利
- 專利分類





