[發明專利]一種文本相關的英語口語發音錯誤檢測與質量評分方法有效
| 申請號: | 201711200048.7 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107945788B | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 黃桂敏;葉婧 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L25/51;G06N3/04;G10L25/30 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 羅玉榮 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相關 英語口語 發音 錯誤 檢測 質量 評分 方法 | ||
1.一種文本相關的英語口語發音錯誤檢測與質量評分方法,其特征是:包括一個由順序連接的英語口語發音預處理模塊、英語口語發音錯誤檢測模塊和英語口語發音質量評分模塊組成的處理方法,其具體的處理方法如下:
(一)英語口語發音預處理模塊的處理方法是:第一,讀入一句待測發音,對它們進行預加重、分幀加窗、解碼、離散傅里葉變換、梅爾濾波、取對數、離散余弦變換和差分提取;第二,輸出待測發音的聲學特征,作為該英語口語發音預處理的結果;
(二)英語口語發音錯誤檢測模塊的處理方法是:第一,讀入待測發音的聲學特征,進行發音識別;第二,根據公式計算各發音幀每個音素的發音標準度得分;第三,輸出各發音幀每個音素的發音標準度得分,并進行錯誤判決;
(三)英語口語發音質量評分模塊的處理方法是:第一,讀入各發音幀每個音素的發音標準度得分和發音識別結果;第二,根據各發音幀每個音素的發音標準度得分計算整個發音的發音標準度得分,并根據識別結果計算語速、段時長和靜音時長評分特征;第三,對整個發音的發音標準度得分、語速、段時長和靜音時長評分特征進行擬合調整和映射評分,輸出該句子發音的初始得分;第四,分別建立5類多層感知器神經網絡分類器,把調整之后的4個評分特征輸入到5類分類器中,計算5類分類器的輸出值和該句子發音的最終得分,并輸出該句子發音的最終得分和相應評語;
所述的英語口語發音預處理模塊處理方法的步驟如下:
P201開始;
P202讀入待測發音;
P203對待測發音進行預加重;
P204對待測發音進行分幀加窗;
P205讀入待測發音對應的文本;
P206加載發音詞典和語法模型;
P207將待測發音對應的文本擴展成識別網絡;
P208加載聲學模型;
P209對分幀加窗后的待測發音進行搜索解碼;
P210獲取待測發音對應的音素序列及其時間邊界;
P211對各音素邊界內的發音幀進行離散傅里葉變換;
P212創建一組梅爾濾波器,使經離散傅里葉變換后輸出的頻率變為梅爾刻度頻率,信號頻譜經過梅爾濾波器組后得到對應的梅爾譜;
P213取對數,將梅爾譜轉化為對數形式;
P214對梅爾譜做離散余弦變換得到梅爾倒譜系數;
P215對梅爾倒譜系數進行差分提取,得到當前倒譜系數的一階和二階差分系數,并將其作為當前發音幀的聲學特征向量,從而得到當前發音幀的聲學特征,輸出待測發音的聲學特征;
P216結束;
所述的英語口語發音錯誤檢測模塊的計算公式如下:
(1)似然度的計算公式
在計算公式(1)中,似然度是指模型參數與觀測數據之間相似性,t1表示音素的起始時間,t2表示音素的結束時間;
(2)音素發音幀的發音標準度得分的計算公式
在計算公式(2)中,各音素發音幀的發音標準度得分是指識別出的發音幀中當前待測音素的概率值,這個概率值反映了當前待測音素的發音標準程度;觀察矢量v是指當前待測音素所對應的發音幀的聲學特征;似然度是指當前待測音素所對應的發音幀通過隱馬爾科夫模型計算得出的條件概率值,由計算公式(1)計算得出;
所述的英語口語發音錯誤檢測模塊處理方法的步驟如下:
P301開始;
P302讀入待測發音的聲學特征;
P303加載經最大似然線性回歸自適應和最大后驗概率自適應調整后的改進型聲學模型、發音詞典、語法模型;
P304對待測發音的聲學特征進行發音識別;
P305加載經最大似然線性回歸自適應的聲學模型;
P306根據計算公式(1)和計算公式(2)計算各音素發音幀的發音標準度得分,輸出各音素發音幀的發音標準度得分;
P307判斷各音素發音幀的發音標準度得分是否大于系統閾值,若各音素發音幀的發音標準度得分大于系統閾值,轉P308操作,否則轉P309操作;
P308標記該音素為正確的發音;
P309標記該音素為錯誤的發音;
P310結束;
所述的英語口語發音質量評分模塊的計算公式如下:
(3)句子發音標準度得分的計算公式
在計算公式(3)中,句子發音標準度得分是指當前句子中各個音素發音幀的發音標準度得分的平均值,反映了當前句子的發音標準程度;i=1,2,3,…,n,i是指句子中每個音素對應的序號,n是指發音中的音素總數;句子中各音素發音幀i的發音標準度得分是指當前句子中第i個音素發音幀的發音標準度得分,由計算公式(2)計算得出;
(4)語速的計算公式
在計算公式(4)中,語速是指說話人的發音速度;
(5)音素段時長的計算公式
在計算公式(5)中,音素段時長是指發音中音素的持續時間,是衡量說話人的發音是否清晰的指標;i=1,2,3,…,n,i是指句子中包含的每個音素對應的序號,n是指發音包含的音素總數;exp是指以自然常數e為底的指數函數;語速由計算公式(4)計算得出;待測音素i持續時間是指發音中第i個待測音素的持續時間;待測音素i段時長均值是指發音中第i個待測音素的的段時長均值,它是通過將所有標準發音樣本中所有音素持續時間的總和與標準發音樣本總數相除得到的;待測音素i段時長方差是指發音中第i個待測音素的段時長方差,它是通過將每個標準發音樣本中當前待測音素的持續時間減去其對應的段時長均值的平方和,并將該平方和與標準發音樣本總數相除得到;
(6)靜音時長的計算公式
在計算公式(6)中,靜音時長是指說話人在發音期間出現的停頓時間,是衡量說話人的發音是否連貫的一個指標;
(7)調整后句子發音標準度得分、調整后語速、調整后音素段時長和調整后靜音時長的計算公式
在計算公式(7)中,句子發音標準度得分多項式系數、語速多項式系數、音素段時長多項式系數和靜音時長多項式系數由計算公式(8)求得;初始句子發音標準度得分通過計算公式(3)計算得到;初始語速通過計算公式(4)計算得到;初始音素段時長通過計算公式(5)計算得到;初始靜音時長通過計算公式(6)計算得到;
(8)句子發音標準度得分多項式系數、語速多項式系數、音素段時長多項式系數和靜音時長多項式系數的計算公式
在計算公式(8)中,是求偏導的數學符號,r=1,2,3,…,k,r是指訓練集中的每個樣本的序號,k表示訓練集中的樣本總數;樣本r句子發音標準度得分人工評分是指教師給第r個樣本的句子發音標準度打的分數、樣本r語速人工評分是指教師給第r個樣本的語速打的分數、樣本r音素段時長人工評分是指教師給第r個樣本的音素段時長打的分數、樣本r靜音時長人工評分是指教師給第r個樣本的靜音時長打的分數;樣本r調整后句子發音標準度得分、樣本r調整后語速、樣本r調整后音素段時長和樣本r調整后靜音時長由計算公式(7)計算得出;
(9)句子發音初始得分的計算公式
句子發音初始得分=
句子發音標準度得分線性回歸系數×調整后句子發音標準度得分+語速線性回歸系數×調整后語速+音素段時長線性回歸系數×調整后音素段時長+靜音時長線性回歸系數×調整后靜音時長 (9)
在計算公式(9)中,句子發音標準度得分線性回歸系數、語速線性回歸系數、音素段時長線性回歸系數、靜音時長線性回歸系數由計算公式(10)求得;調整后句子發音標準度得分、調整后語速、調整后音素段時長和調整后靜音時長由計算公式(7)計算得出;
(10)線性回歸系數的計算公式
在計算公式(10)中,是求偏導的數學符號,r=1,2,3,…,k,r是指訓練集中的每個樣本的序號,k表示訓練集中的樣本總數;樣本r句子發音得分人工評分是指教師給第r個樣本的句子發音打的分數;樣本r句子發音初始得分由計算公式(9)計算得出;
(11)隱層節點輸出值的計算公式
在計算公式(11)中,exp是高等數學里以自然常數e為底的指數函數;i=1,2,3,4,i是指輸入向量的維數,輸入向量為調整后的句子發音標準度得分、語速、音素段時長和靜音時長,由計算公式(7)計算得出;輸入層節點i是指第i個輸入層節點,輸入層節點i與隱層第一個節點連接權值是由反向傳播計算通過訓練樣本訓練得到;
(12)神經網絡分類輸出值的計算公式
在計算公式(12)中,exp是高等數學中以自然常數e為底的指數函數;j=1,2,3,j是指隱層節點的序號;隱層節點j是指第j個隱層節點,隱層節點j到輸出層各節點連接權值是由反向傳播計算通過訓練樣本訓練得到;隱層節點j輸出值由計算公式(11)計算得出;
(13)句子發音最終得分的計算公式
句子發音最終得分=3.3×(神經網絡分類最大輸出值-0.7)+(神經網絡分類最優索引-1) (13)
在計算公式(13)中,神經網絡分類最大輸出值是通過上述計算公式(12)計算得到的神經網絡分類輸出值中最大的值;神經網絡分類最優索引是指輸出值最大的神經網絡分類的序號。
2.根據權利要求1所述的英語口語發音錯誤檢測與質量評分方法,其特征是:所述的英語口語發音質量評分模塊處理方法的步驟如下:
P401開始;
P402讀入各音素發音幀的發音標準度得分;
P403根據計算公式(3)計算句子發音標準度得分;
P404根據計算公式(4)計算語速;
P405根據計算公式(5)計算音素段時長;
P406根據計算公式(6)計算靜音時長;
P407擬合調整句子發音標準度得分、語速、音素段時長、靜音時長評分特征,根據計算公式(7)和計算公式(8)計算調整后句子發音標準度得分、調整后語速、調整后音素段時長和調整后靜音時長;
P408將調整后句子發音標準度得分、調整后語速、調整后音素段時長和調整后靜音時長融合,并進行映射變換,根據計算公式(9)和計算公式(10)計算得到句子發音初始得分,輸出初始得分;
P409分別建立5類多層感知器神經網絡分類器,并把調整后句子發音標準度得分、調整后語速、調整后音素段時長和調整后靜音時長分別輸入到5類神經網絡分類器中,根據計算公式(11)和計算公式(12)計算這5類神經網絡器的輸出值,輸出5類神經網絡器的輸出值;
P410獲取5類神經網絡器的最大輸出值,并將輸出值最大的神經網絡分類器的序號記為最優索引,輸出最大輸出值、最優索引;
P411判斷最大輸出值是否大于0.7,如果最大輸出值大于0.7,轉P412操作,否則轉P413操作;
P412判斷初始得分是否小于最優索引減1,如果初始得分小于最優索引減1,轉P414操作,否則轉P415操作;
P413將初始得分記為句子發音的最終得分;
P414根據計算公式(13)計算句子發音的最終得分;
P415判斷初始得分是否大于最優索引,如果初始得分大于最優索引,轉P416操作,否則轉P413操作;
P416將最優索引記為句子發音的最終得分;
P417得到句子發音的最終得分和相應的評語;
P418結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711200048.7/1.html,轉載請聲明來源鉆瓜專利網。





