[發明專利]發音測評方法、裝置、系統、介質和計算設備在審

申請號：	201910408727.6	申請日：	2019-05-16
公開（公告）號：	CN111951828A	公開（公告）日：	2020-11-17
發明（設計）人：	胡太;孫懌;沈欣堯;劉晨晨;崔守首;余津銳	申請（專利權）人：	上海流利說信息技術有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L25/57;G10L15/02;G10L15/25
代理公司：	北京信遠達知識產權代理有限公司 11304	代理人：	魏曉波
地址：	200092 上海市楊浦區16***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	發音測評方法裝置系統介質計算設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明的實施方式提供了一種發音測評方法。該方法包括：獲取用戶的發音視頻；從所述發音視頻中獲取有效視頻段；基于所述有效視頻段，獲取用戶的發音口型特征序列；根據用戶的發音口型特征序列與標準音口型特征序列按照預設計算方式得到發音口型分數。本方法通過用戶發音時的圖像特征來評判用戶的發音是否準確，而不是根據用戶發音的語音特征，避免了噪聲對語音識別的干擾，有效彌補語音識別在特定場景和任務下的不足，為用戶帶來了更好的體驗。此外，本發明的實施方式還提供了一種發音測評裝置、系統、介質和計算設備。

技術領域

本發明的實施方式涉及口語評測領域，更具體地，本發明的實施方式涉及一種發音測評方法、裝置、系統、介質和計算設備。

背景技術

本部分旨在為權利要求書中陳述的本發明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現有技術。

現有的發音打分技術多數都是基于語音識別的方法，這些方法利用語音特征來判別音標發音的準確性。早期主流的打分技術主要是基于隱馬爾科夫模型的語音識別引擎，利用其似然分數值(likelihoodscore)以及其他相關的信息做為評分依據。其中，最經典的GOP(GoodnessofPronunciation)方法是由麻省理工大學的SilkeWitt在他的博士論文中提出。之后的評分方法大都與GOP算法相似，或者是由它衍生出來。

在某些場景下，如環境嘈雜或用戶發出的聲音較小，僅僅利用基于語音的方法較難準確地判別用戶發音是否正確。

發明內容

為此，非常需要一種改進的發音測評方法，使得即使用戶處于嘈雜環境等場景下，依然能夠準確地判別用戶發音是否正確。

在本上下文中，本發明的實施方式期望提供一種發音測評方法、裝置、介質和計算設備。

在本發明實施方式的第一方面中，提供了一種發音測評方法，包括：

獲取用戶的發音視頻；

從所述發音視頻中獲取有效視頻段；

基于所述有效視頻段，獲取用戶的發音口型特征序列；

根據用戶的發音口型特征序列與標準音口型特征序列按照預設計算方式得到發音口型分數。

在本發明的一個實施例中，從所述發音視頻中獲取有效視頻段，包括：

獲取所述用戶的發音視頻的視頻信號；

基于所述視頻信號的波動，對所述發音視頻進行裁剪，去除用戶未發音的視頻幀，以獲取有效視頻段。