[發明專利]一種語音識別后的語句糾錯方法、裝置、設備及存儲介質有效
| 申請號: | 202110632498.3 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113343671B | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 楊東泉;秦偉 | 申請(專利權)人: | 佳都科技集團股份有限公司;廣州佳都科技軟件開發有限公司;廣州新科佳都科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216 |
| 代理公司: | 北京澤方譽航專利代理事務所(普通合伙) 11884 | 代理人: | 陳照輝 |
| 地址: | 511400 廣東省廣州市番禺區東環街迎賓*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 語句 糾錯 方法 裝置 設備 存儲 介質 | ||
1.一種語音識別后的語句糾錯方法,其特征在于,包括:
基于訓練好的語言模型,確定待糾錯文本中每個文字在所述待糾錯文本中的第一出現概率,并根據所述第一出現概率在所述待糾錯文本中確定識別錯誤字,所述待糾錯文本基于語音識別得到;
基于所述語言模型,確定所述識別錯誤字對應的模型候選字,并根據所述識別錯誤字的拼音和聲調,確定所述識別錯誤字對應的同音候選字;
根據所述模型候選字和所述同音候選字在所述待糾錯文本中的第二出現概率,確定所述模型候選字和所述同音候選字之間的第一排序,并根據所述模型候選字和所述同音候選字與所述識別錯誤字之間的文字距離,確定所述模型候選字和所述同音候選字之間的第二排序,其中,包括將所述模型候選字與所述識別錯誤字的拼音之間的編輯距離,作為所述模型候選字與所述識別錯誤字之間的文字距離,將設定距離作為所述同音候選字與所述識別錯誤字之間的文字距離,根據所述文字距離,確定所述模型候選字和所述同音候選字之間的第二排序;
基于所述第一排序和所述第二排序,確定所述模型候選字和所述同音候選字之間的候選排序,根據所述候選排序確定糾錯候選字,并利用所述糾錯候選字替換所述識別錯誤字,得到糾正文本。
2.根據權利要求1所述的語音識別后的語句糾錯方法,其特征在于,所述基于訓練好的語言模型,確定待糾錯文本中每個文字在所述待糾錯文本中的第一出現概率,并根據所述第一出現概率在所述待糾錯文本中確定識別錯誤字,包括:
將待糾錯文本輸入到訓練好的BERT語言模型中,由所述BERT語言模型輸出所述待糾錯文本中每個文字在所述待糾錯文本中的第一出現概率;
將所述待糾錯文本中,第一出現概率低于設定的選擇閾值的文字確定為識別錯誤字。
3.根據權利要求2所述的語音識別后的語句糾錯方法,其特征在于,所述方法還包括:
按照樣本獲取比例,從樣本數據集中提取樣本文本作為閾值計算樣本,所述樣本獲取比例基于樣本數據集中所有樣本文本對應的平均字錯誤率確定;
利用BERT語言模型計算所述閾值計算樣本中各個樣本正確字和樣本錯誤字的第三出現概率,并根據所述第三出現概率確定樣本正確字和樣本錯誤字在不同概率區間的分布,確定選擇閾值。
4.根據權利要求3所述的語音識別后的語句糾錯方法,其特征在于,所述根據所述第三出現概率確定樣本正確字和樣本錯誤字在不同概率區間的分布,確定選擇閾值,包括:
根據所述第三出現概率,確定所述閾值計算樣本中各個樣本正確字和樣本錯誤字在不同概率區間的分布;
基于所述樣本正確字和所述樣本錯誤字的分布存在相交區間,將所述樣本正確字和所述樣本錯誤字的數量最少所對應的概率作為選擇閾值;
基于所述樣本正確字和所述樣本錯誤字的分布不存在相交區間,將所述樣本正確字對應的最大概率和所述樣本錯誤字對應的最小概率的平均值作為選擇閾值。
5.根據權利要求1所述的語音識別后的語句糾錯方法,其特征在于,所述基于所述語言模型,確定所述識別錯誤字對應的模型候選字,包括:
利用MASK標記替換所述待糾錯文本中的識別錯誤字,得到掩膜文本;
基于BERT語言模型,確定所述掩膜文本在MASK標記的位置中,各個掩膜替換字的第四出現概率;
根據所述第四出現概率篩選所述掩膜替換字,并將篩選出的所述掩膜替換字作為模型候選字。
6.根據權利要求1所述的語音識別后的語句糾錯方法,其特征在于,所述同音候選字包括相同拼音的同音候選字以及易混淆拼音的同音候選字,所述根據所述識別錯誤字的拼音和聲調,確定所述識別錯誤字對應的同音候選字,包括:
確定所述識別錯誤字對應的原始拼音和原始聲調,并根據所述原始拼音和所述原始聲調獲取同音候選字;
確定所述拼音對應的易混淆拼音,并根據所述易混淆拼音和所述原始聲調獲取同音候選字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佳都科技集團股份有限公司;廣州佳都科技軟件開發有限公司;廣州新科佳都科技有限公司,未經佳都科技集團股份有限公司;廣州佳都科技軟件開發有限公司;廣州新科佳都科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110632498.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虎杖苷提取純化方法
- 下一篇:電動汽車充電站規劃方案量化評估方法





