[發明專利]基于transformer框架的多通道聲紋識別方法及裝置、設備在審
| 申請號: | 202111682904.3 | 申請日: | 2021-12-31 |
| 公開(公告)號: | CN114446308A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 潘文安;謝悅皎 | 申請(專利權)人: | 香港中文大學(深圳) |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/18;G10L17/04;G10L25/18;G10L25/45 |
| 代理公司: | 深圳市欣亞知識產權代理事務所(普通合伙) 44621 | 代理人: | 葛勤;程光慧 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 框架 通道 聲紋 識別 方法 裝置 設備 | ||
本發明公開了一種基于transformer框架的多通道聲紋識別方法及裝置、設備,該方法包括:將待識別的音頻信息進行聲源分解,再通過短時傅里葉變換得到三通道頻譜圖Ⅰ;對同一組三通道頻譜圖Ⅰ分別同時進行轉置、填補或截斷,得到兩組三通道頻譜圖Ⅱ;將兩組三通道頻譜圖Ⅱ輸入至改進的LeViT神經網絡模型中,并利用改進的LeViT神經網絡模型對音頻信息的聲紋進行識別處理輸出音頻信息的聲紋識別信息,聲紋識別信息至少包括音頻信息對應的說話者。通過本發明提供的方法,通過對音頻信息進行處理,得到了多個通道的音頻信號,從而起到識別音頻的準確率更高的作用;且通過改進的LeViT神經網絡模型可更準確的識別音頻信號,增加了模型的復雜度,使得準確率有大幅度的提升。
技術領域
本發明涉及聲音檢測技術領域,尤其涉及一種基于transformer框架的多通道聲紋識別方法及裝置、設備及存儲介質。
背景技術
目前,聲紋識別任務的傳統方法包括Gaussian Mixture Model-UniversalBackground Model(GMM-UBM,高斯混合-通用背景模型),support vector machine(SVM)-based GMM-UBMs and the i-vector models(基于高斯混合-通用背景模型和i-vector模型的支持向量機)。這些傳統方法對于大規模數據的識別效果表現較差,于是引入了深度學習來處理大規模的數據。
已提出的網絡主要是convolution neural network(CNN,卷積神經網絡),包括單通道的CNN以及多通道的CNN,但由于CNN的網絡復雜度有限,最終的識別準確率也有限。
有鑒于此,有必要提出對目前的聲紋識別方法進行進一步的改進。
發明內容
為此,本發明目的在于至少一定程度上解決現有技術中的不足,從而提出一種基于transformer框架的多通道聲紋識別方法及裝置、設備及存儲介質。
第一方面,本發明提供了一種基于transformer框架的多通道聲紋識別方法,所述方法包括:
將待識別的音頻信息進行聲源分解,再通過短時傅里葉變換得到三通道頻譜圖Ⅰ;
對同一組所述三通道頻譜圖Ⅰ分別同時進行轉置、填補或截斷,得到兩組三通道頻譜圖Ⅱ;
將所述兩組三通道頻譜圖Ⅱ輸入至改進的LeViT神經網絡模型中,并利用所述改進的LeViT神經網絡模型對所述音頻信息的聲紋進行識別處理輸出音頻信息的聲紋識別信息,其中所述聲紋識別信息至少包括所述音頻信息對應的說話者。
第二方面,本發明提供了一種基于transformer框架的多通道聲紋識別裝置,包括:
變換模塊:用于將待識別的音頻信息進行聲源分解,再通過短時傅里葉變換得到三通道頻譜圖Ⅰ;
處理模塊:用于對同一組所述三通道頻譜圖Ⅰ分別同時進行轉置、填補或截斷,得到兩組三通道頻譜圖Ⅱ;
識別模塊:用于將所述兩組三通道頻譜圖Ⅱ輸入至改進的LeViT神經網絡模型,并利用所述改進的LeViT神經網絡模型對所述音頻信息的聲紋進行識別處理輸出所述音頻信息的聲紋識別信息,其中所述聲紋識別信息至少包括所述音頻信息對應的說話者。
第三方面,本發明還提供了一種聲紋識別終端,包括存儲器、處理器、以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時,實現如第一方面所述的基于transformer框架的多通道聲紋識別方法中的各個步驟。
第四方面,本發明還提供了一種存儲介質,其上存儲有計算機程序,所述計算機程序被執行時,實現如第一方面所述的基于transformer框架的多通道聲紋識別方法中的各個步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港中文大學(深圳),未經香港中文大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111682904.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:盤刷往復驅動機構及玻璃清洗機
- 下一篇:車門玻璃運動軌跡確認方法及系統
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





