[發明專利]一種多音字讀音預測方法、裝置及計算機可讀存儲介質在審
| 申請號: | 202010727658.8 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN111599340A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 司馬華鵬;王培雨 | 申請(專利權)人: | 南京硅基智能科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇舜點律師事務所 32319 | 代理人: | 孫丹 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多音字 讀音 預測 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種多音字讀音預測方法,其特征在于,包括以下步驟:
將輸入文本導入訓練的多音字預測模型中,獲取多音字在輸入文本中的讀音;
將輸入文本進行單音字讀音標注,獲取單音字讀音;
將單音字讀音和多音字讀音按照文本順序進行組合,輸出整個文本讀音;其中,
多音字預測模型的訓練包括以下步驟:
輸入包含多音字的訓練文本,標注對應的正確讀音,輸出訓練文本對應的數據文本;將數據文本輸入到預訓練語言模型,獲取數據的向量表示;將向量輸入深度學習模型進行批量迭代訓練,獲得多音字預測模型;
標注對應的正確讀音包括將訓練文本中的多音字按照正確讀音標注,單音字用符號標注;
深度學習模型包括有循環與輸入向量進行卷積操作,獲得多音字所在位置上下文分別進行卷積操作得到的兩個向量,將這兩個向量進行拼接后輸入GRU網絡中進行重置和更新,將GRU網絡輸出向量進行隨機失活,輸出多維向量,將輸出的多維向量轉換為一維向量,通過函數將一維向量各個元素映射到各個讀音對應的概率,輸出概率最大的讀音。
2.根據權利要求1的一種多音字讀音預測方法,其特征在于:所述預訓練模型為Word2vec或bert模型。
3.根據權利要求2的一種多音字讀音預測方法,其特征在于:多音字預測模型的訓練包括在每次迭代時采用隨機梯度下降算法訓練模型,采用交叉熵損失函數評價模型擬合的程度。
4.一種多音字讀音預測裝置,其特征在于,包括:
多音字預測模塊,用于將輸入文本導入訓練的多音字預測模型中,獲取多音字在輸入文本中的讀音;
單音字讀音標注模塊,用于將輸入文本進行單音字讀音標注,獲取單音字讀音;
讀音組合模塊,用于將單音字讀音和多音字讀音按照文本順序進行組合,輸出整個文本讀音;
多音字預測模塊包括:
輸入層,用于輸入包含多音字的訓練文本,標注對應的正確讀音,輸出訓練文本對應的數據文本;
預訓練層,用于將數據文本輸入到預訓練語言模型,獲取數據的向量表示;
卷積層,用于循環與預訓練層輸出向量進行卷積操作,獲得多音字所在位置上下文分別進行卷積操作得到的兩個向量;
拼接層,用于將卷積層輸出的兩個向量進行拼接;
GRU網絡層,用于有選擇地對拼接層輸出的向量進行重置和更新;
Dropout層,用于將GRU網絡層輸出向量進行隨機失活;
全連接層,用于將Dropout層輸出的多維向量轉成一維向量;
輸出層,用于利用函數將全連接層輸出的向量元素映射到各個讀音對應的概率,輸出概率最大的讀音。
5.根據權利要求4的一種多音字讀音預測裝置,其特征在于:多音字預測模塊包括在每次迭代時采用隨機梯度下降算法訓練模型,采用交叉熵損失函數評價模型擬合的程度。
6.根據權利要求5的一種多音字讀音預測裝置,其特征在于:包括有語音合成模塊,用于將讀音組合模塊輸出的讀音合成語音,輸出音頻。
7.一種計算機可讀存儲介質,其特征在于:包括一組計算機可執行指令,當指令被執行時用于執行權利要求1-3任一項的一種多音字讀音預測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京硅基智能科技有限公司,未經南京硅基智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010727658.8/1.html,轉載請聲明來源鉆瓜專利網。





