[發明專利]一種基于深度卷積生成對抗網絡的音頻關鍵詞識別方法有效
| 申請號: | 202010425087.2 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111724770B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 白楊;李全兵;詹茂豪;徐海森 | 申請(專利權)人: | 中國電子科技網絡信息安全有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/26;G10L25/18;G10L25/24;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 錢成岑 |
| 地址: | 610207 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 生成 對抗 網絡 音頻 關鍵詞 識別 方法 | ||
1.一種基于深度卷積生成對抗網絡的音頻關鍵詞識別方法,其特征在于,包括如下步驟:
步驟1,構建基于深度卷積生成對抗網絡的音頻關鍵詞識別模型;
步驟2,訓練基于深度卷積生成對抗網絡的音頻關鍵詞識別模型;
步驟3,利用訓練好的基于深度卷積生成對抗網絡的音頻關鍵詞識別模型進行音頻關鍵詞識別;
步驟1中構建的基于深度卷積生成對抗網絡的音頻關鍵詞識別模型包括生成器和判別器;
(1)所述生成器包括擴展路徑、收縮路徑、以及3個零散卷積層;當輸入音頻特征到生成器中時:依次經過擴展路徑,2個卷積核為3×3、激活函數為ReLU的卷積層,收縮路徑,以及1個卷積核為1×1的卷積層后,輸出音頻關鍵詞定位標簽序列;其中,
所述擴展路徑包括4個第一重復單元,每個第一重復單元包括2個卷積核為3×3、激活函數為ReLU的卷積層,以及1個區域大小為2×2、步長為2的最大池化層;其中,每一次最大池化層進行下采樣后都將特征通道的數量加倍;
所述收縮路徑包括4個第二重復單元,每個第二重復單元包括1個反卷積核為2×2的反卷積層和2個卷積核為3×3、激活函數為ReLU的卷積層;其中,每個第二重復單元中先由反卷積層處理,并將反卷積結果與擴展路徑中對應步驟的特征拼接起來,然后將拼接后的數據經過2個卷積層;
(2)所述判別器包括5個卷積模塊、5個最大池化層和2個全連接層;其中,
前3個卷積模塊中,每個卷積模塊包括2個卷積核為3×3、激活函數為ReLU的卷積層;后2個卷積模塊中,每個卷積模塊包括3個卷積核為1×1、激活函數為ReLU的卷積層;上一卷積模塊輸入到下一卷積模塊之前要經過1層區域大小為2×2、步長為2的最大池化層;
2個全連接層采用的激活函數為ReLU,其中,第一個全連接層的神經元個數為256個,第二個全連接層神經元個數為64個;最后一個卷積模塊輸入到第一個全連接層之前要經過1層區域大小為2×2、步長為2的最大池化層;第二個全連接層輸出的數據再輸入到softmax損失函數中進行概率預測。
2.根據權利要求1所述的基于深度卷積生成對抗網絡的音頻關鍵詞識別方法,其特征在于,步驟2包括如下子步驟:
步驟2.1,獲取給定音頻信號的音頻特征;
步驟2.2,將步驟2.1獲取的音頻特征,通過生成器和人工標記兩種方法分別生成音頻關鍵詞定位標簽序列;其中,通過生成器生成的音頻關鍵詞定位標簽序列為定位序列數據,通過人工標記生成的音頻關鍵詞定位標簽序列為訓練數據集;
步驟2.3,將步驟2生成的定位序列數據和訓練數據集輸入到判別器進行判別,所述判別器的輸出值為定位序列數據屬于真實數據的概率值,所述判別器的輸出為生成器的生成的定位序列數據被判定為真實數據的概率值;當生成器生成的定位序列數據為真實數據時,概率值為1;當生成器生成的定位序列數據為偽造數據時,概率為0;
步驟2.4,然后根據判別器輸出的概率值,依據深度卷積生成對抗網絡的生成器和判別器的損失函數計算方法來計算損失函數;
步驟2.5,根據步驟2.4計算得到的生成器和判別器的損失函數,利用反向傳播算法,更新生成器的模型參數,使生成器能夠生成與通過人工標記生成的音頻關鍵詞定位標簽序列接近的音頻關鍵詞定位標簽序列。
3.根據權利要求2所述的基于深度卷積生成對抗網絡的音頻關鍵詞識別方法,其特征在于,步驟2.1中采用梅爾頻率倒譜系數獲取給定音頻信號的音頻特征,包括如下子步驟:
步驟2.11,預加重:將給定音頻信號經過高通濾波器濾波;
步驟2.12,分幀:將濾波后的音頻信號分割成若干片段,每一個片段為一幀;
步驟2.13,加窗:給每一幀加窗,以增加幀的起始端和終止端的連續性;
步驟2.14,快速傅里葉變換:對加窗后的每一幀進行快速傅里葉變換得到各幀的頻譜,并對音頻信號的各幀頻譜取模平方得到音頻信號的功率譜;
步驟2.15,梅爾濾波器處理:將功率譜通過一組梅爾尺度的三角形濾波器組,得到梅爾頻譜;
步驟2.16,離散傅里葉變換:將梅爾頻譜取對數,之后再經過離散余弦變換得到L階的梅爾頻率倒譜系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技網絡信息安全有限公司,未經中國電子科技網絡信息安全有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010425087.2/1.html,轉載請聲明來源鉆瓜專利網。





