[發明專利]多音字發音的預測方法、裝置、設備及存儲介質在審
| 申請號: | 202011432585.6 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112528648A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 李俊杰;張志宇;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多音字 發音 預測 方法 裝置 設備 存儲 介質 | ||
1.一種多音字發音的預測方法,其特征在于,所述多音字發音的預測方法包括:
獲取經過標注的待處理中文語句,并獲取所述待處理中文語句的字表示向量集和多音字表示向量,所述待處理中文語句包括目標多音字;
對所述待處理中文語句進行分詞處理得到目標分詞,并根據所述目標分詞將所述字表示向量集轉換為詞級特征表示向量;
對所述多音字表示向量和所述詞級特征表示向量進行基于注意力機制的拼接處理,得到目標向量;
通過預置的線性層,計算所述目標向量的目標拼音概率,并根據所述目標拼音概率確定所述目標多音字的目標發音。
2.根據權利要求1所述的多音字發音的預測方法,其特征在于,所述對所述待處理中文語句進行分詞處理得到目標分詞,并根據所述目標分詞將所述字表示向量集轉換為詞級特征表示向量,包括:
對所述待處理中文語句進行分詞處理得到目標分詞;
根據所述目標分詞對所述字表示向量集進行劃分,得到每個詞的表示向量組;
通過預置的混合池化層,將所述每個詞的表示向量組進行混合池化,得到詞級特征表示向量。
3.根據權利要求1所述的多音字發音的預測方法,其特征在于,所述對所述多音字表示向量和所述詞級特征表示向量進行基于注意力機制的拼接處理,得到目標向量,包括:
通過預置的前饋注意力機制,對所述多音字表示向量和所述詞級特征表示向量進行注意力計算,得到注意力向量;
將所述注意力向量與所述多音字表示向量進行拼接,得到目標向量。
4.根據權利要求1所述的多音字發音的預測方法,其特征在于,所述通過預置的線性層,計算所述目標向量的目標拼音概率,并根據所述目標拼音概率確定所述目標多音字的目標發音,包括:
通過預置的線性層,計算所述目標向量基于每一個拼音的概率,得到多音字拼音概率值集;
按照值從大到小的順序,對所述多音字拼音概率值集中的多音字拼音概率值進行排序,并將排序第一的多音字拼音概率值確定為目標拼音概率;
將所述目標拼音概率對應的拼音確定為所述目標多音字的目標發音。
5.根據權利要求1所述的多音字發音的預測方法,其特征在于,所述獲取經過標注的待處理中文語句,并獲取所述待處理中文語句的字表示向量集和多音字表示向量,所述待處理中文語句包括目標多音字,包括:
獲取初始中文語句、所述初始中文語句中的目標多音字和所述目標多音字對應的多音字位置信息;
根據所述多音字位置信息,對所述初始中文語句中的目標多音字進行標注,得到待處理中文語句;
對所述待處理中文語句依次進行字向量編碼和多音字向量提取,得到字表示向量集和多音字表示向量。
6.根據權利要求5所述的多音字發音的預測方法,其特征在于,所述對所述待處理中文語句依次進行字向量編碼和多音字向量提取,得到字表示向量集和多音字表示向量,包括:
通過預置的深度神經網絡編碼器,對所述待處理中文語句中的每個字進行編碼,得到字表示向量集,一個字表示向量對應一個字;
根據所述多音字位置信息,從所述字表示向量集中提取所述目標多音字對應的表示向量,得到多音字表示向量。
7.根據權利要求1-6中任一項所述的多音字發音的預測方法,其特征在于,所述通過預置的線性層,計算所述目標向量的目標拼音概率,并根據所述目標拼音概率確定所述目標多音字的目標發音之后,還包括:
獲取所述目標發音基于標注發音的誤差值,并根據所述誤差值對所述目標發音的獲取策略進行優化,所述獲取策略包括獲取所述目標發音的執行過程、算法和網絡結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011432585.6/1.html,轉載請聲明來源鉆瓜專利網。





