[發明專利]發音測評方法、裝置、系統、介質和計算設備在審
| 申請號: | 201910408727.6 | 申請日: | 2019-05-16 |
| 公開(公告)號: | CN111951828A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 胡太;孫懌;沈欣堯;劉晨晨;崔守首;余津銳 | 申請(專利權)人: | 上海流利說信息技術有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/57;G10L15/02;G10L15/25 |
| 代理公司: | 北京信遠達知識產權代理有限公司 11304 | 代理人: | 魏曉波 |
| 地址: | 200092 上海市楊浦區16*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 發音 測評 方法 裝置 系統 介質 計算 設備 | ||
本發明的實施方式提供了一種發音測評方法。該方法包括:獲取用戶的發音視頻;從所述發音視頻中獲取有效視頻段;基于所述有效視頻段,獲取用戶的發音口型特征序列;根據用戶的發音口型特征序列與標準音口型特征序列按照預設計算方式得到發音口型分數。本方法通過用戶發音時的圖像特征來評判用戶的發音是否準確,而不是根據用戶發音的語音特征,避免了噪聲對語音識別的干擾,有效彌補語音識別在特定場景和任務下的不足,為用戶帶來了更好的體驗。此外,本發明的實施方式還提供了一種發音測評裝置、系統、介質和計算設備。
技術領域
本發明的實施方式涉及口語評測領域,更具體地,本發明的實施方式涉及一種發音測評方法、裝置、系統、介質和計算設備。
背景技術
本部分旨在為權利要求書中陳述的本發明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現有技術。
現有的發音打分技術多數都是基于語音識別的方法,這些方法利用語音特征來判別音標發音的準確性。早期主流的打分技術主要是基于隱馬爾科夫模型的語音識別引擎,利用其似然分數值(likelihoodscore)以及其他相關的信息做為評分依據。其中,最經典的GOP(GoodnessofPronunciation)方法是由麻省理工大學的SilkeWitt在他的博士論文中提出。之后的評分方法大都與GOP算法相似,或者是由它衍生出來。
在某些場景下,如環境嘈雜或用戶發出的聲音較小,僅僅利用基于語音的方法較難準確地判別用戶發音是否正確。
發明內容
為此,非常需要一種改進的發音測評方法,使得即使用戶處于嘈雜環境等場景下,依然能夠準確地判別用戶發音是否正確。
在本上下文中,本發明的實施方式期望提供一種發音測評方法、裝置、介質和計算設備。
在本發明實施方式的第一方面中,提供了一種發音測評方法,包括:
獲取用戶的發音視頻;
從所述發音視頻中獲取有效視頻段;
基于所述有效視頻段,獲取用戶的發音口型特征序列;
根據用戶的發音口型特征序列與標準音口型特征序列按照預設計算方式得到發音口型分數。
在本發明的一個實施例中,從所述發音視頻中獲取有效視頻段,包括:
獲取所述用戶的發音視頻的視頻信號;
基于所述視頻信號的波動,對所述發音視頻進行裁剪,去除用戶未發音的視頻幀,以獲取有效視頻段。
在本發明的另一實施例中,采用基于z-score閾值匹配的方法對所述發音視頻進行裁剪。
在本發明的又一個實施例中,基于所述有效視頻段,獲取用戶的發音口型特征序列,包括:
獲取所述有效視頻段中每一幀圖像的發音口型特征;
基于每一幀圖像的發音口型特征生成所述有效視頻段的發音口型特征序列。
在本發明的再一個實施例中,獲取所述有效視頻段中每一幀圖像的發音口型特征,包括:
基于每一幀圖像中嘴部區域的各個關鍵點到中心點的距離確定每一幀圖像的發音口型特征。
在本發明的再一個實施例中,所述中心點基于嘴型內輪廓最高頂點與最低頂點以及最左頂點與最右頂點確認。
在本發明的再一個實施例中,根據用戶的發音口型特征序列與標準音口型特征序列按照預設計算方式得到發音口型分數,包括:
將用戶的發音口型特征序列與標準音口型特征序列對比,獲得用戶的發音口型特征序列與標準音口型特征序列的發音口型特征相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海流利說信息技術有限公司,未經上海流利說信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910408727.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種發音糾正系統、方法、介質和計算設備
- 下一篇:一種新型嗨動珠寶首飾





