[發(fā)明專利]一種確定漢字拼音的方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201811312773.8 | 申請(qǐng)日: | 2018-11-06 |
| 公開(公告)號(hào): | CN111142681A | 公開(公告)日: | 2020-05-12 |
| 發(fā)明(設(shè)計(jì))人: | 胡娟;陳歡;宋奇 | 申請(qǐng)(專利權(quán))人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號(hào): | G06F3/023 | 分類號(hào): | G06F3/023 |
| 代理公司: | 成都七星天知識(shí)產(chǎn)權(quán)代理有限公司 51253 | 代理人: | 袁春曉 |
| 地址: | 100193 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 確定 漢字 拼音 方法 系統(tǒng) 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種漢字拼音確定方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。所述方法包括以下一個(gè)或一個(gè)以上操作。可以獲取待確定拼音的輸入數(shù)據(jù)。可以基于拼音確定模型獲取所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值,所述概率值為對(duì)應(yīng)候選拼音結(jié)果為所述輸入數(shù)據(jù)的發(fā)音的概率。可以將概率值最大的候選拼音結(jié)果確定為所述輸入數(shù)據(jù)的目標(biāo)拼音。本申請(qǐng)中公開的方法,可以根據(jù)漢字的上下文語境,選擇合適的多音字拼音,解決了常用算法中詞典未覆蓋的多音字詞問題。
技術(shù)領(lǐng)域
本發(fā)明涉及語言處理技術(shù)領(lǐng)域,更具體的,涉及一種確定漢字拼音的方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
在對(duì)中文漢字進(jìn)行拼音注音時(shí),常用的漢字轉(zhuǎn)拼音的算法依賴于詞典,包括詞語映射拼音詞典和單個(gè)字映射拼音詞典。對(duì)于既有詞典,無法覆蓋新出現(xiàn)的詞語,并且在面對(duì)單個(gè)字(或多音字)轉(zhuǎn)拼音時(shí),無法根據(jù)該字的具體上下文語境靈活的選擇拼音,只能根據(jù)設(shè)定好的位置去確定該字的多個(gè)讀音中的一個(gè)。這樣得到的漢字轉(zhuǎn)拼音的正確率較低。因此,需要一種可根據(jù)上下文語境確定漢字拼音的方法。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中在進(jìn)行漢字轉(zhuǎn)拼音時(shí),無法根據(jù)上下文靈活選擇正確拼音的問題,本發(fā)明的一個(gè)實(shí)施例在于提供一種確定漢字拼音的方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì),首先確定待轉(zhuǎn)拼音的漢字的所有讀音,進(jìn)一步基于由訓(xùn)練語料對(duì)訓(xùn)練完成的拼音確定模型獲取拼音對(duì)應(yīng)待轉(zhuǎn)漢字的概率值,基于概率值確定待轉(zhuǎn)拼音的漢字的拼音結(jié)果,提高了漢字轉(zhuǎn)拼音的準(zhǔn)確性。
為了達(dá)到上述發(fā)明的目的,本發(fā)明提供的技術(shù)方案如下:
一種確定漢字讀音的方法。所述方法在可以在包括一個(gè)處理器和一個(gè)存儲(chǔ)器的設(shè)備上實(shí)現(xiàn)。所述方法可以包括以下一個(gè)或一個(gè)以上操作。可以獲取待確定拼音的輸入數(shù)據(jù)。可以對(duì)所述輸入數(shù)據(jù)進(jìn)行處理,獲取所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值,所述概率值為對(duì)應(yīng)候選拼音結(jié)果為所述輸入數(shù)據(jù)的發(fā)音的概率。可以將概率值最大的候選拼音結(jié)果確定為所述輸入數(shù)據(jù)的目標(biāo)拼音,并輸入所述目標(biāo)拼音。
在本發(fā)明中,所述對(duì)所述輸入數(shù)據(jù)進(jìn)行處理,獲取所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值,可以包括以下一個(gè)或一個(gè)以上的操作。可以基于狀態(tài)轉(zhuǎn)移矩陣及發(fā)射矩陣確定所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值。所述狀態(tài)轉(zhuǎn)移矩陣包含訓(xùn)練語料中全部漢字的拼音組成的集合中,任意一個(gè)拼音轉(zhuǎn)移到集合中其他拼音的概率值以及轉(zhuǎn)移到其自身的概率值。所述發(fā)射矩陣包含所述集合中任意一個(gè)拼音對(duì)應(yīng)的漢字取訓(xùn)練語料中各漢字的概率值。所述訓(xùn)練語料包括多條由含有漢字的文本及其對(duì)應(yīng)的拼音組成的語料對(duì)。
在本發(fā)明中,所述基于狀態(tài)轉(zhuǎn)移矩陣及發(fā)射矩陣確定所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值,可以包括以下一個(gè)或一個(gè)以上操作。可以確定所述輸入數(shù)據(jù)的觀察序列;所述觀察序列是將所述輸入數(shù)據(jù)對(duì)應(yīng)的文本拆分成單個(gè)字符后的字符序列。確定所述觀察序列中每個(gè)字符的狀態(tài)序列;其中,漢字字符的狀態(tài)序列包含該漢字的全部拼音,數(shù)字字符、字母字符與符號(hào)字符的狀態(tài)序列均為其本身。可以基于所述狀態(tài)轉(zhuǎn)移矩陣以及所述發(fā)射矩陣確定所述觀察序列中每個(gè)漢字字符取其狀態(tài)序列中不同拼音的概率值,得到所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果及其對(duì)應(yīng)的概率值。
在本發(fā)明中,所述將概率值最大的候選拼音結(jié)果確定為所述輸入數(shù)據(jù)的目標(biāo)拼音,可以包括以下一個(gè)或一個(gè)以上操作。可以保留所述觀察序列中每個(gè)漢字字符的狀態(tài)序列中概率值最大的拼音,得到所述輸入數(shù)據(jù)的目標(biāo)拼音。
一種確定漢字拼音系統(tǒng)。所述系統(tǒng)包括獲取模塊、候選拼音確定模塊以及目標(biāo)拼音確定模塊。所述獲取模塊用于獲取待確定拼音的輸入數(shù)據(jù)。所述候選拼音確定模塊用于對(duì)所述輸入數(shù)據(jù)進(jìn)行處理,獲取所述輸入數(shù)據(jù)的至少一種候選拼音結(jié)果,以及每一種候選拼音結(jié)果對(duì)應(yīng)的概率值,所述概率值為對(duì)應(yīng)候選拼音結(jié)果為所述輸入數(shù)據(jù)的發(fā)音的概率。所述目標(biāo)拼音確定模塊用于將概率值最大的候選拼音結(jié)果確定為所述輸入數(shù)據(jù)的目標(biāo)拼音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司,未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811312773.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種面料及其加工裝置
- 下一篇:可調(diào)節(jié)光束的激光路燈
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





