[發(fā)明專利]一種特定領(lǐng)域的語音識別文本糾錯方法、系統(tǒng)和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011294715.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112489655A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 顧文元;曾祥云;張雪源 | 申請(專利權(quán))人: | 元夢人文智能國際有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/28;G10L15/04;G06F40/232 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 何琦 |
| 地址: | 中國香港中環(huán)夏慤道1*** | 國省代碼: | 香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特定 領(lǐng)域 語音 識別 文本 糾錯 方法 系統(tǒng) 存儲 介質(zhì) | ||
1.一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,包括:
獲取待糾錯的文本序列;
使用預(yù)先訓(xùn)練好的通用領(lǐng)域語料模型識別所述文本序列,得到通用領(lǐng)域判定結(jié)果;所述通用領(lǐng)域判定結(jié)果包括所述文本序列中是否存在錯誤字詞及所述錯誤字詞的內(nèi)容;
使用預(yù)先訓(xùn)練好的特定領(lǐng)域語料模型識別所述文本序列,得到特定領(lǐng)域判定結(jié)果;所述特定領(lǐng)域判定結(jié)果包括所述文本序列中是否存在錯誤字詞及所述錯誤字詞的內(nèi)容;
當(dāng)所述通用領(lǐng)域判定結(jié)果和所述特定領(lǐng)域判定結(jié)果是否都是存在錯誤字詞且所述錯誤字詞同一時,判斷所述文本序列中存在錯誤,根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單,根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單;
將所述通用領(lǐng)域候選詞清單和所述特定領(lǐng)域候選詞清單中的候選詞依次代入所述文本序列中得到糾正序列;
使用所述通用領(lǐng)域語料模型和所述特定領(lǐng)域語料模型驗證所述糾正序列,若驗證通過,輸出所述糾正序列作為糾正結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,所述根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單包括:
計算預(yù)先建立的通用領(lǐng)域詞匯表中的詞與所述錯誤字詞的通用領(lǐng)域拼音編輯距離集;
獲取所述通用領(lǐng)域詞匯表中的詞與所述錯誤字詞的通用領(lǐng)域最大公共子串集;
根據(jù)所述通用領(lǐng)域拼音編輯距離集和所述通用領(lǐng)域最大公共子串集建立所述通用領(lǐng)域候選詞清單。
3.根據(jù)權(quán)利要求1所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,所述根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單包括:
計算預(yù)先建立的特定領(lǐng)域詞匯表中的詞與所述錯誤字詞的特定領(lǐng)域拼音編輯距離集;
獲取所述特定領(lǐng)域詞匯表中的詞與所述錯誤字詞的特定領(lǐng)域最大公共子串集;
根據(jù)所述特定領(lǐng)域拼音編輯距離集和所述特定領(lǐng)域最大公共子串集建立所述通用領(lǐng)域候選詞清單。
4.根據(jù)權(quán)利要求1所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,所述獲取待糾錯的文本序列包括:獲取語音識別文本;
對所述語音識別文本進行分句處理得到文本序列。
5.根據(jù)權(quán)利要求4所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單,根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單包括:
對所述文本序列進行分詞處理,得到分詞處理結(jié)果;
根據(jù)分詞處理結(jié)果獲取N-gram短語集;
統(tǒng)計所述分詞處理結(jié)果中每個詞的詞頻,得到詞頻集;
計算所述N-gram短語集中每個N-gram短語的相減項,得到相減項集;
根據(jù)所述相減項集和所述詞頻集計算所述N-gram短語集中對應(yīng)的每個N-gram短語的偽概率;
根據(jù)所述N-gram短語的偽概率構(gòu)建所述通用領(lǐng)域候選詞清單和所述特定領(lǐng)域候選詞清單。
6.根據(jù)權(quán)利要求5所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單,根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單還包括:
合并所述分詞處理結(jié)果中的相同詞匯。
7.根據(jù)權(quán)利要求5所述的一種特定領(lǐng)域的語音識別文本糾錯方法,其特征在于,根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單,根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單還包括:
統(tǒng)計所述N-gram短語集中每個N-gram短語在所述文本序列中第一個詞的種類數(shù)量,并得到第一詞集;
根據(jù)所述詞頻集中的每個詞的詞頻在所述第一詞集中對應(yīng)的詞頻調(diào)整所述詞頻集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于元夢人文智能國際有限公司,未經(jīng)元夢人文智能國際有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294715.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





