[發(fā)明專利]音頻檢測設(shè)備、方法、裝置及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210255295.1 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114360526B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計)人: | 鄭鑫江;艾國;楊作興;房汝明;向志宏 | 申請(專利權(quán))人: | 杭州研極微電子有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G06N3/04;G06N3/08 |
| 代理公司: | 中國貿(mào)促會專利商標事務(wù)所有限公司 11038 | 代理人: | 馮雯 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 檢測 設(shè)備 方法 裝置 存儲 介質(zhì) | ||
1.一種音頻檢測方法,包括:
使原始音頻以音頻段為單位輸入到基于神經(jīng)網(wǎng)絡(luò)模型的音頻檢測設(shè)備的音頻編碼單元中,所述音頻編碼單元被配置為從接收的音頻段中提取并編碼音頻特征,
其中,所述音頻檢測設(shè)備的所述音頻編碼單元包括全局池化層,所述全局池化層提供所述音頻編碼單元的輸出端并耦接至所述音頻檢測設(shè)備的一個或多個音頻解碼單元,所述一個或多個音頻解碼單元中的每個音頻解碼單元被配置為執(zhí)行不同音頻檢測任務(wù)的解碼,以輸出相應(yīng)音頻檢測任務(wù)的預(yù)測結(jié)果,
并且其中,每個音頻段的被所述音頻編碼單元的緊接在所述全局池化層之前的壓縮模塊輸出的特征的維度為[1, C, 1, 1],其中C表示所述壓縮模塊的通道數(shù);以及
在所述壓縮模塊的輸出處進行輸出特征的緩存,當緩存到預(yù)設(shè)數(shù)量L個輸出特征時,將維度為[1, C, 1, L]的緩存輸出特征傳輸?shù)剿鋈殖鼗瘜右赃M行壓縮,并將所述全局池化層的維度為[1, C, 1, 1]的壓縮輸出提供至所述一個或多個音頻解碼單元中的每個音頻解碼單元進行解碼,以得到相應(yīng)音頻檢測任務(wù)的預(yù)測結(jié)果,其中C、L為正整數(shù)。
2.根據(jù)權(quán)利要求1所述的音頻檢測方法,其中,所述音頻檢測設(shè)備在訓(xùn)練期間所接收的訓(xùn)練音頻在被所述壓縮模塊輸出的特征的維度為[1, C, 1, D],其中D為正整數(shù),并且其中,L被設(shè)置為大于或等于D。
3.根據(jù)權(quán)利要求1或2所述的音頻檢測方法,還包括對于所述一個或多個音頻解碼單元中的每個音頻解碼單元:
第N次將維度為[1, C, 1, L]的緩存輸出特征傳輸?shù)剿鋈殖鼗瘜右赃M行壓縮,并將所述全局池化層的維度為[1, C, 1, 1]的壓縮輸出提供至該音頻解碼單元進行解碼以得到第N音頻片段關(guān)于相應(yīng)音頻檢測任務(wù)的第N預(yù)測結(jié)果,所述第N音頻片段由與第N次的所述維度為[1, C, 1, L]的緩存輸出特征對應(yīng)的L個音頻段組成;以及
第(N+1)次將重新組成的維度為[1, C, 1, L]的緩存輸出特征傳輸?shù)剿鋈殖鼗瘜右赃M行壓縮,并將所述全局池化層的維度為[1, C, 1, 1]的壓縮輸出提供至該音頻解碼單元進行解碼以得到第(N+1)音頻片段關(guān)于相應(yīng)音頻檢測任務(wù)的第(N+1)預(yù)測結(jié)果,所述第(N+1)音頻片段由與第(N+1)次的所述重新組成的維度為[1, C, 1, L]的緩存輸出特征對應(yīng)的L個音頻段組成,
其中N為正整數(shù)。
4.根據(jù)權(quán)利要求3所述的音頻檢測方法,還包括:在第N次將維度為[1, C, 1, L]的緩存輸出特征傳輸?shù)剿鋈殖鼗瘜右赃M行壓縮之后,當附加的y個音頻段輸入到所述音頻檢測設(shè)備以在所述壓縮模塊處新產(chǎn)生y個輸出特征時,將與第N次的所述維度為[1, C, 1,L]的緩存輸出特征對應(yīng)的L個輸出特征的前y個輸出特征丟棄,并將其剩下的(L-y)個輸出特征與新產(chǎn)生的y個輸出特征重新組成維度為[1, C, 1, L]的緩存輸出特征,以用于在第(N+1)次將重新組成的維度為[1, C, 1, L]的緩存輸出特征傳輸?shù)剿鋈殖鼗瘜右赃M行壓縮,
其中y、N為正整數(shù)并且yL。
5.根據(jù)權(quán)利要求3所述的音頻檢測方法,還包括:將每個音頻片段的預(yù)測結(jié)果與該音頻片段的前j個音頻片段的預(yù)測結(jié)果的求和平均值作為該音頻片段的處理后的預(yù)測結(jié)果,其中j為正整數(shù)。
6.根據(jù)權(quán)利要求3所述的音頻檢測方法,還包括:將每個音頻片段的預(yù)測結(jié)果與該音頻片段的前j個音頻片段的預(yù)測結(jié)果的加權(quán)求和平均值作為該音頻片段的處理后的預(yù)測結(jié)果,其中j為正整數(shù),并且其中該音頻片段的前j個音頻片段中的每個音頻片段所分配到的權(quán)重基于其與該音頻片段的間隔,并且間隔越大則權(quán)重越小。
7.根據(jù)權(quán)利要求5或6所述的音頻檢測方法,還包括:當在該音頻片段之前的音頻片段的數(shù)量小于j時,直接將該音頻片段的預(yù)測結(jié)果作為該音頻片段的最終預(yù)測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州研極微電子有限公司,未經(jīng)杭州研極微電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210255295.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





