[發(fā)明專利]一種語音識別糾錯方法及人機(jī)對話系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910717838.5 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110428822B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 蘭飛 | 申請(專利權(quán))人: | 重慶電子工程職業(yè)學(xué)院 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/22;G10L15/26;G10L15/04;G06F40/232 |
| 代理公司: | 重慶強(qiáng)大凱創(chuàng)專利代理事務(wù)所(普通合伙) 50217 | 代理人: | 陳家輝 |
| 地址: | 401331 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 糾錯 方法 人機(jī)對話 系統(tǒng) | ||
1.一種語音識別糾錯方法,其特征在于:包括以下步驟:
獲取語音識別結(jié)果和候選語義片段以及語音識別結(jié)果的拼音和候選語義片段的拼音;
將語音識別結(jié)果和候選語義片段進(jìn)行組合,形成若干新的糾錯文本,計算語音識別結(jié)果和候選語義片段的拼音相似度和糾錯文本的組合分?jǐn)?shù),根據(jù)組合分?jǐn)?shù)篩選糾錯文本得到糾錯候選列表;
語言模型優(yōu)化步驟,利用語言模型計算語言模型評分,并根據(jù)組合分?jǐn)?shù)和語言模型評分生成最終糾錯列表;
計算語音識別結(jié)果和候選語義片段的拼音相似度具體包括以下步驟:
計算語音識別結(jié)果的拼音對應(yīng)的字符串的子字符串和候選語義片段之間的拼音相似度,形成相似度矩陣Mk;
根據(jù)拼音相似度計算組合分?jǐn)?shù);計算所述組合分?jǐn)?shù)時加權(quán)字符串長度;
對組合分?jǐn)?shù)按照由大到小排序,并取前N個組合分?jǐn)?shù)對應(yīng)的候選語義片段,得到糾錯候選列表;
假設(shè)語音識別的字符串的長度為n,對應(yīng)漢語拼音[str0,str1,str2,...,str n-1];候選語義片段為t1、t2、...、tX,對應(yīng)拼音s1、s2、...、sX;相似度矩陣Mk的矩陣大小為:n*n,其中Mk(i,j),0=i=j(luò)=n-1,表示字符串[stri,...,strj]和字符串sk的拼音相似度;
計算語音識別結(jié)果的拼音與每個語義片段的拼音的相似度矩陣的步驟中,采用基于編輯距離的算法來計算兩個字符串的相似度;
相似度矩陣的計算步驟中,采用動態(tài)規(guī)劃從正向、反向兩個方向運算;
計算得分最高的前N個片段組合F(n);
初始狀態(tài),F(xiàn)(1)為Mk(0,0)對應(yīng)的得分最高的前N個字符串,及字符串str0和候選片段拼音s1、s2、...、sX相似度最高的前N個字符串;
用F_score(n)表示最優(yōu)片段組合F(n)對應(yīng)的組合分?jǐn)?shù),length_weight表示字符串長度權(quán)重;動態(tài)規(guī)劃的從n-1到n的決策過程如下,F(xiàn)(n)由下列多種情況組成:
F_score(n)=Mk(0,n-1)*n*length_weight;這種情況組合分?jǐn)?shù)為整個語音識別的字符串和候選片段拼音匹配的相似度乘以字符串的長度n,再乘以字符串長度權(quán)重;
F_score(n)=F_score(1)+Mk(1,n-1)*(n-1)*length_weight;這種情況組合分?jǐn)?shù)為第一個字符串的最優(yōu)組合分?jǐn)?shù),加上字符串[str1,str2,...,str n-1]和候選片段拼音匹配的相似度乘以字符串的長度n-1,再乘以字符串長度權(quán)重;
F_score(n)=F_score(2)+Mk(2,n-1)*(n-2)*length_weight;這種情況組合分?jǐn)?shù)為字符串[str0,str1]的最優(yōu)組合分?jǐn)?shù),加上字符串[str3,...,str n-1]和候選片段拼音匹配的相似度乘以字符串的長度n-2,再乘以字符串長度權(quán)重;
按照上述過程迭代計算,中間的情況不再贅述,最后的兩種情況為:
F_score(n)=F_score(n-1)+Mk(n-1,n-1)*1*length_weight;這種情況組合分?jǐn)?shù)為字符串[str0,...,str n-2]的最優(yōu)組合分?jǐn)?shù),加上字符串[strn-1]和候選片段拼音匹配的相似度乘以字符串的長度1,再乘以字符串長度權(quán)重;
F_score(n)=F_score(n-1)+self_score;這種情況組合分?jǐn)?shù)為字符串[str0,...,strn-2]的最優(yōu)組合分?jǐn)?shù),加上新增字符串[str n-1]本身對應(yīng)的相似度設(shè)定值self_score;
對F_score(n)的各種情況進(jìn)行排序,取前N個,得到糾錯候選列表;
所述語言模型優(yōu)化步驟包括:
語言模型評分步驟,將糾錯候選列表輸入語言模型,計算糾錯候選列表中各個糾錯文本的ngram分?jǐn)?shù);
分?jǐn)?shù)融合步驟,按照預(yù)設(shè)的權(quán)重,將語言模型評分和組合分?jǐn)?shù)進(jìn)行加權(quán)求和,得到最終評分;
排序步驟,按照最終評分由高到低將糾錯候選列表中的糾錯文本進(jìn)行排序。
2.一種人機(jī)對話系統(tǒng),其特征在于:包括語音識別糾錯模塊,所述語音識別糾錯模塊使用了如權(quán)利要求1中所述的語音識別糾錯方法。
3.根據(jù)權(quán)利要求2所述的一種人機(jī)對話系統(tǒng),其特征在于:還包括語音識別模塊、話術(shù)模塊、意圖識別模塊,所述話術(shù)模塊用于向用戶發(fā)送對話內(nèi)容或根據(jù)用戶的語音對應(yīng)的意圖回應(yīng)用戶的對話內(nèi)容,所述語音識別模塊用于識別用戶的語音內(nèi)容,所述意圖識別模塊用于根據(jù)語音內(nèi)容和對話內(nèi)容上下文識別用戶的意圖,所述語音識別糾錯模塊用于在意圖識別模塊識別失敗后,生成糾錯候選列表,所述意圖識別模塊還用于根據(jù)語音識別糾錯模塊生成的糾錯候選列表重新識別用戶的意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶電子工程職業(yè)學(xué)院,未經(jīng)重慶電子工程職業(yè)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910717838.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





