[發(fā)明專利]一種語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法和計算機設(shè)備有效
| 申請?zhí)枺?/td> | 202210928970.2 | 申請日: | 2022-08-03 |
| 公開(公告)號: | CN115293139B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計)人: | 陳瑋;馮少輝;張建業(yè) | 申請(專利權(quán))人: | 北京中科智加科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/237;G06F40/289;G06N3/0455;G06N3/08 |
| 代理公司: | 北京天達(dá)知識產(chǎn)權(quán)代理事務(wù)所有限公司 11386 | 代理人: | 龐許倩 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 轉(zhuǎn)寫 文本 糾錯 模型 訓(xùn)練 方法 計算機 設(shè)備 | ||
1.一種語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法,其特征在于,包括以下步驟:
獲取原始語音轉(zhuǎn)寫文本及對應(yīng)的文本糾錯后的目標(biāo)文本,構(gòu)建訓(xùn)練樣本集合;
計算所述原始語音轉(zhuǎn)寫文本與目標(biāo)文本的編輯距離,基于最小編輯距離得到多條編輯路徑;
根據(jù)所述多條編輯路徑構(gòu)建編輯對齊字符集合,基于所述編輯對齊字符集合中的每個字符在預(yù)先構(gòu)建的詞表中出現(xiàn)的頻率,計算各個候選編輯路徑的頻率得分,選擇得分最高的候選編輯路徑作為最終編輯路徑,并基于最終編輯路徑得到原始語音轉(zhuǎn)寫文本中每個字符的長度標(biāo)注標(biāo)簽;
將所述語音轉(zhuǎn)寫文本、長度標(biāo)注標(biāo)簽和目標(biāo)文本輸入到多任務(wù)模型進(jìn)行預(yù)測,經(jīng)過損失函數(shù)迭代更新,得到語音轉(zhuǎn)寫文本糾錯模型;
所述多任務(wù)模型包括長度預(yù)測器、長度修正器和糾錯器;所述長度預(yù)測器用于根據(jù)所述語音轉(zhuǎn)寫文本和長度標(biāo)注標(biāo)簽對每個字符的長度進(jìn)行預(yù)測并標(biāo)注;所述長度修正器用于根據(jù)所述長度預(yù)測器輸出的語音轉(zhuǎn)寫文本對應(yīng)的長度標(biāo)注,對語音轉(zhuǎn)寫本文進(jìn)行修改,得到與對應(yīng)的目標(biāo)文本相同長度的待糾錯文本;所述糾錯器用于根據(jù)目標(biāo)文本對對應(yīng)的待糾錯文本進(jìn)行糾錯,得到糾錯后的文本;
所述糾錯器為基于Bert的非自回歸糾錯模型,包括文本表示層、全連接層和CRF層;所述文本表示層,用于對所述待糾錯文本進(jìn)行文本表示,得到具有上下文信息的n*k矩陣,其中n為句子的最大長度,k為詞向量維度;所述全連接層,用于根據(jù)文本表示層的輸出預(yù)測輸入字符映射到輸出字符的概率分布,得到字符預(yù)測的發(fā)射矩陣;所述CRF層,基于全連接層的輸出,通過初始化轉(zhuǎn)移矩陣和損失函數(shù)迭代更新,得到每個句子中字符排序的最佳路徑;
所述CRF層的損失函數(shù)為:
Losscrf=-(1-Pcrf(Y|X))γlogPcrf(Y|X),
X為輸入字符序列;Y為預(yù)測的輸出字符序列;γ是控制懲罰權(quán)重的超參數(shù);Pcrf(Y|X)為輸出字符的概率值;
所述長度預(yù)測器在訓(xùn)練時采用的損失函數(shù)為:
其中,wi'為第i個字符wi的長度;
所述長度預(yù)測器和糾錯器串行連接,其總損失函數(shù)為:
Loss=αLosslp+βLosscrf,
其中,α和β為權(quán)重系數(shù)。
2.根據(jù)權(quán)利要求1所述的語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法,其特征在于,根據(jù)所述長度預(yù)測器輸出的語音轉(zhuǎn)寫文本對應(yīng)的長度標(biāo)注,對語音轉(zhuǎn)寫本文進(jìn)行修改,包括:刪除長度為0的字符,在長度為m的字符相鄰位置插入m-1個相同的字符,以對齊原始語音轉(zhuǎn)寫文本與目標(biāo)文本的長度,m為大于1的整數(shù)。
3.根據(jù)權(quán)利要求1所述的語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法,其特征在于,所述CRF層的轉(zhuǎn)移矩陣采用兩個低秩神經(jīng)參數(shù)度量E1和E2進(jìn)行降維:
E1,E2∈R|V|×dm;
將滿秩轉(zhuǎn)移矩陣A轉(zhuǎn)換為A=E1E2T,其中,dm|V|,|V|=k+2,k為詞向量維度。
4.根據(jù)權(quán)利要求1所述的語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法,其特征在于,所述根據(jù)所述多條編輯路徑構(gòu)建編輯對齊字符集合包括:
直接根據(jù)所述多條編輯路徑構(gòu)建編輯對齊字符集合;或者,
根據(jù)所述多條編輯路徑中未經(jīng)修改的字符個數(shù)計算匹配得分,選擇匹配得分最高的編輯路徑為候選編輯路徑,根據(jù)候選編輯路徑構(gòu)建編輯對齊字符集合。
5.根據(jù)權(quán)利要求4所述的語音轉(zhuǎn)寫文本糾錯模型的訓(xùn)練方法,其特征在于,所述根據(jù)多條編輯路徑或候選編輯路徑構(gòu)建編輯對齊字符集合包括:
根據(jù)編輯路徑對原始語音轉(zhuǎn)寫文本進(jìn)行長度標(biāo)注,得到每個編輯路徑對應(yīng)的標(biāo)注結(jié)果;根據(jù)每個編輯路徑對應(yīng)的長度標(biāo)注結(jié)果得到多個可選的替換字符并構(gòu)建得到編輯對齊字符集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科智加科技有限公司,未經(jīng)北京中科智加科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210928970.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





