[發明專利]一種基于多任務的音素檢測方法及裝置有效
| 申請號: | 202011156288.3 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112420075B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 謝川 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/24;G10L15/02;G10L15/06 |
| 代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 音素 檢測 方法 裝置 | ||
1.一種基于多任務的音素檢測方法,其特征在于:包括以下步驟:
步驟A1)訓練音素檢測模型;
步驟A2)獲取待檢測的語音序列;
步驟A3)將語音序列分割為多個基礎子序列;步驟A3)將語音序列分割為多個基礎子序列,根據音素個數,將語音音頻序列等分為與音素個數相等的多個基礎子序列;
步驟A4)將基礎子序列的端點進行移動,獲得一組變換子序列集合;
步驟A5)將所有變換子序列輸入音素檢測模型,得到預測音素及對應的置信度;
步驟A6)取置信度最高的變換子序列,作為新的基礎子序列;
步驟A7)判斷基礎子序列是否滿足終止條件,若是,則獲得音素檢測結果和音素的起點和截止點位置并輸出,若否,則返回步驟A4);步驟A7)中的終止條件設置為前后兩側音素識別的置信度差值小于設定值a、前后兩次音素識別最高的兩個序列IOU結果小于c%、音素識別置信度大于b、迭代次數大于等于預設最大迭代次數N,其中N為任意正整數,即當N為1時不進行迭代。
2.根據權利要求1所述的一種基于多任務的音素檢測方法,其特征在于:所述步驟A7)中置信度最高的變換子序列的預測音素作為步驟A3)中基礎子序列的最終音素檢測結果,置信度最高的變換子序列的兩個端點位置作為步驟A3)中基礎子序列的音素起點和截止位置。
3.根據權利要求1所述的一種基于多任務的音素檢測方法,其特征在于:所述步驟A3)中將語音序列分割為多個基礎子序列的方法包括:通過語音識別或者音素識別的方法,檢測出語音序列中包含的音素個數,根據音素個數,將語音序列等分或通過隨機分為多個基礎子序列。
4.根據權利要求1所述的一種基于多任務的音素檢測方法,其特征在于:所述步驟A4)中將基礎子序列生成變換子序列的方法包括,將基礎子序列兩個端點位置等距離平移或者將基礎子序列兩端點位置相對序列中心進行縮放。
5.根據權利要求1所述的一種基于多任務的音素檢測方法,其特征在于:所述步驟A1)中的音素檢測模型包括卷積神經網絡、SVM或者可重訓練的模型,所述可重訓練的模型設置為通過訓練語音數據及其對應的音素端點位置標記的文本信息,利用標記的音素端點位置和最接近的變換子序列位置的重合度,更新模型參數。
6.一種基于多任務的音素檢測裝置,其特征在于:用于實現如權利要求1-5所述的一種基于多任務的音素檢測方法,包括語音數據模塊、語音序列分割模塊和音素檢測模塊,所述語音數據模塊與語音序列分割模塊信號連接,所述語音序列分割模塊與音素檢測模塊信號連接。
7.根據權利要求6所述的一種基于多任務的音素檢測裝置,其特征在于:所述語音數據獲取模塊用于獲取待檢測的語音序列。
8.根據權利要求6所述的一種基于多任務的音素檢測裝置,其特征在于:所述語音序列分割模塊用于將語音序列分割為多個基礎子序列。
9.根據權利要求6所述的一種基于多任務的音素檢測裝置,其特征在于:所述音素檢測模塊用于獲取每個基礎子序列的檢測結果和音素位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011156288.3/1.html,轉載請聲明來源鉆瓜專利網。





