[發明專利]拼音識別方法、裝置、終端設備及計算機可讀存儲介質在審
| 申請號: | 202010656131.0 | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111967248A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 趙洋;包榮鑫;王宇;魏世勝 | 申請(專利權)人: | 深圳價值在線信息科技股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 閆冰冰 |
| 地址: | 518000 廣東省深圳市福田區沙頭街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼音 識別 方法 裝置 終端設備 計算機 可讀 存儲 介質 | ||
1.一種拼音識別方法,其特征在于,包括:
對待識別的拼音序列進行漢語音節的劃分處理,得到音節序列;
獲取所述音節序列中每個漢語音節對應的一組候選漢字,并基于預設統計模型從所述每個漢語音節對應的一組候選文字中確定出每個所述漢語音節對應的目標漢字,其中,所述預設統計模型用于表示每兩個所述漢語音節對應的所述候選漢字之間的關聯性;
按照所述音節序列中漢語音節的順序將所述目標漢字組合成語句,并將所述語句記為所述拼音序列的識別結果。
2.如權利要求1所述的拼音識別方法,其特征在于,所述對待識別的拼音序列進行漢語音節的劃分處理,得到音節序列,包括:
獲取預設字典樹,其中,所述預設字典樹中的每個節點對應一個拼音字符,且所述節點的子節點對應的拼音字符不同;
在所述預設字典樹中查找第一目標節點,其中,所述第一目標節點對應的拼音字符與所述拼音序列中的第一個拼音字符相同;
以所述第一目標節點為父節點,在所述預設字典樹中查找第二目標節點,其中,第r個第二目標節點對應所述拼音序列中的第r+1個拼音字符,1≤r≤R-1,所述R為所述拼音序列中拼音字符的個數。
3.如權利要求1所述的拼音識別方法,其特征在于,所述預設統計模型為隱馬爾可夫模型;
所述隱馬爾可夫模型包括初始概率矩陣、狀態轉移矩陣和觀測矩陣;
其中,所述初始概率矩陣包括第一個漢字組中每個候選漢字對應的統計概率值,其中,所述第一個漢字組為所述音節序列中第一個漢語音節對應的一組候選漢字;
所述狀態轉移矩陣包括所述音節序列中相鄰的每兩個漢語音節對應的候選漢字之間的關聯概率值;
所述觀測矩陣包括每個所述候選漢字的讀音各自對應的統計概率值。
4.如權利要求3所述的拼音識別方法,其特征在于,所述基于預設統計模型從所述每個漢語音節對應的一組候選文字中確定出每個所述漢語音節對應的目標漢字,包括:
按照所述音節序列中漢語音節的順序,依次計算每個所述漢語音節對應的每個所述候選漢字的概率最值;
根據計算出的所述概率最值確定出每個所述漢語音節對應的目標漢字。
5.如權利要求4所述的拼音識別方法,其特征在于,所述按照所述音節序列中漢語音節的順序,依次計算每個所述漢語音節對應的每個所述候選漢字的概率最值,包括:
對于所述第一個漢字組,通過公式P1(i)=πiBi(O1)計算所述第一個漢字組中每個所述候選漢字的概率最值;
其中,P1(i)為所述第一個漢字組中第i個候選漢字的概率最值,πi為所述初始概率矩陣中第一個漢字組的第i個候選漢字的統計概率值,Bi(O1)為所述觀測矩陣中第一個漢字組的第i個候選漢字的讀音O1對應的統計概率值,O1與所述音節序列中第一個漢語音節一致,i=1,…M1,M1為所述第一漢字組中候選漢字的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳價值在線信息科技股份有限公司,未經深圳價值在線信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010656131.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種周向導波超聲換能器加工位置的計算方法
- 下一篇:固化劑配方及制備方法





