[發(fā)明專利]一種特定領(lǐng)域的語音識別文本糾錯方法、系統(tǒng)和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011294715.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112489655A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 顧文元;曾祥云;張雪源 | 申請(專利權(quán))人: | 元夢人文智能國際有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/28;G10L15/04;G06F40/232 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 何琦 |
| 地址: | 中國香港中環(huán)夏慤道1*** | 國省代碼: | 香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特定 領(lǐng)域 語音 識別 文本 糾錯 方法 系統(tǒng) 存儲 介質(zhì) | ||
本發(fā)明公開了一種特定領(lǐng)域的語音識別文本糾錯方法,包括:獲取待糾錯的文本序列;使用通用領(lǐng)域語料模型和特定領(lǐng)域語料模型識別文本序列中的每一個文本序列,得到通用領(lǐng)域判定結(jié)果和特定領(lǐng)域判定結(jié)果;當(dāng)所述通用領(lǐng)域判定結(jié)果和所述特定領(lǐng)域判定結(jié)果是否都是存在錯誤字詞且所述錯誤字詞同一時,根據(jù)通用領(lǐng)域判定結(jié)果和特定領(lǐng)域判定結(jié)果確定候選詞清單;將候選詞依次代入文本序列中得到糾正序列;使用通用領(lǐng)域語料模型和特定領(lǐng)域語料模型驗證糾正序列,若驗證通過,輸出糾正序列作為糾正結(jié)果。本發(fā)明的技術(shù)效果:有效防止疑似錯誤誤判;大大減少了需要驗證的候選詞數(shù)量;候選詞表更全,查全率高,糾錯的準(zhǔn)確率高。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別糾錯,特別涉及一種特定領(lǐng)域的語音識別文本糾錯方法、系統(tǒng)和存儲介質(zhì)。
背景技術(shù)
近幾年技術(shù)層面的突破,語音識別的差錯率得到大幅降低,目前已經(jīng)擁有許多應(yīng)用場景,取得了很好的市場反響。比如智能手機(jī)上的語音輸入法、智能音箱的語音處理、錄音設(shè)備的聯(lián)網(wǎng)轉(zhuǎn)寫功能等,都離不開語音識別的助攻。對于典型的語音界面人機(jī)交互系統(tǒng)而言,語音識別是最前端的一個模塊,經(jīng)過識別后的文本才能進(jìn)行自然語言理解與加工處理,從而產(chǎn)生對應(yīng)的交互返回給用戶。
但是,語音識別的結(jié)果仍存在不可避免的誤差。由于環(huán)境噪聲、地方口音、設(shè)備自身等干擾因素的存在,語音識別轉(zhuǎn)換后的文本段落經(jīng)常帶有一些異常數(shù)據(jù),比如同音詞、近似音詞、錯別字等預(yù)期之外的錯誤文本。這樣的差錯在文本段落中影響是不容小覷的,同音詞會帶來語義理解的嚴(yán)重偏差,字級別的錯誤還可能造成分詞切分錯誤,從而導(dǎo)致詞性標(biāo)注、依存關(guān)系分析等一系列錯誤。因此,在語音識別技術(shù)瓶頸下,文本糾錯成為非常關(guān)鍵的一個環(huán)節(jié),良好的糾錯能極大地改善輸出文本質(zhì)量。
現(xiàn)有研發(fā)語音識別后文本糾錯的相關(guān)技術(shù)問題在于:而現(xiàn)有的技術(shù)方案往往依賴于單一的模型進(jìn)行使用,故導(dǎo)致在實際的使用過程中,一旦遭遇特定領(lǐng)域詞匯,糾錯效率不能盡如人心,而如果使用特定領(lǐng)域進(jìn)行優(yōu)化,則有可能降低在通用詞匯上的識別
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中存在的由于使用單一模型而導(dǎo)致的誤判率較高的問題,本發(fā)明提供一種特定領(lǐng)域的語音識別文本糾錯方法,包括:
獲取待糾錯的文本序列;
使用預(yù)先訓(xùn)練好的通用領(lǐng)域語料模型識別所述文本序列,得到通用領(lǐng)域判定結(jié)果;所述通用領(lǐng)域判定結(jié)果包括所述文本序列中是否存在錯誤字詞及所述錯誤字詞的內(nèi)容;
使用預(yù)先訓(xùn)練好的特定領(lǐng)域語料模型識別所述文本序列,得到特定領(lǐng)域判定結(jié)果;所述特定領(lǐng)域判定結(jié)果包括所述文本序列中是否存在錯誤字詞及所述錯誤字詞的內(nèi)容;
當(dāng)所述通用領(lǐng)域判定結(jié)果和所述特定領(lǐng)域判定結(jié)果是否都是存在錯誤字詞且所述錯誤字詞同一時,判斷所述文本序列中存在錯誤,根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單,根據(jù)所述特定領(lǐng)域判定結(jié)果確定特定領(lǐng)域候選詞清單。
將所述通用領(lǐng)域候選詞清單和所述特定領(lǐng)域候選詞清單中的候選詞依次代入所述文本序列中得到糾正序列;
使用所述通用領(lǐng)域語料模型和所述特定領(lǐng)域語料模型驗證所述糾正序列,若驗證通過,輸出所述糾正序列作為糾正結(jié)果。
優(yōu)選地,所述根據(jù)所述通用領(lǐng)域判定結(jié)果確定通用領(lǐng)域候選詞清單包括:
計算預(yù)先建立的通用領(lǐng)域詞匯表中的詞與所述錯誤字詞的通用領(lǐng)域拼音編輯距離集;
獲取所述通用領(lǐng)域詞匯表中的詞與所述錯誤字詞的通用領(lǐng)域最大公共子串集;
根據(jù)所述通用領(lǐng)域拼音編輯距離集和所述通用領(lǐng)域最大公共子串集建立所述通用領(lǐng)域候選詞清單。
在本技術(shù)方案中,通過兩種模型分別進(jìn)行識別,只有當(dāng)兩個模型都認(rèn)為是錯誤的情況下,才會將其視為存在錯誤,可以克服因為對于名詞的所述領(lǐng)域判斷錯誤而導(dǎo)致的錯誤劃分,將實際上正確的視為錯誤的,從而有效防止疑似錯誤誤判。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于元夢人文智能國際有限公司,未經(jīng)元夢人文智能國際有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294715.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





