[發明專利]基于語音圖譜和深度學習的實時性別識別方法在審
| 申請號: | 201910612980.3 | 申請日: | 2019-07-09 |
| 公開(公告)號: | CN110211569A | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 王磊 | 申請(專利權)人: | 浙江百應科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L25/30;G10L25/51;G10L25/78 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 性別識別 語音 圖譜 數字特征 音頻流 建立模型 實時獲取 性別預測 學習算法 語音對話 語音識別 準確率 靜音 切除 學習 轉換 | ||
本發明涉及語音識別領域,尤其涉及于語音圖譜和深度學習的實時性別識別方法,包括以下步驟:S1:基于深度學習算法建立模型;S2:語音對話過程中實時獲取音頻流;S3:將獲取的音頻流通過VAD切除靜音部分;S4:通過fbank提取音頻的數字特征;S5:將數字特征轉換成語音圖譜,將語音圖譜通過模型進行性別預測,得到性別識別結果。本發明針對語音可以實時性別識別,同時提升了性別識別的準確率。
技術領域
本發明涉及語音識別領域,尤其涉及基于語音圖譜和深度學習的實時性別識別方法。
背景技術
隨著大數據和深度學習技術的發展,語音識別和聲紋識別越來越多的運用于各行各業,包括目標任務確認,語音開鎖,智能語音機器人等行業,還包括智能人機交互,聲控機器人,智能家居語音喚醒等,隨著深度學習技術的不斷發展,聲紋識別和語音識別技術已經出現了很多影響人們生活的產品,越來越大的影響了人類生活。
而在性別識別這塊也有一些傳統的方法嘗試,例如:直接基于聲音的基音頻率差異,按男女不同范圍的基音頻率識別男女;采用多個傳統模型融合的方式去實現,特征不斷變換多個融合模型共同發揮作用。但是這些方法存在以下問題:基音頻率差異這種方式,因為男女本身的基音頻率就存在交叉,而且由于個體的特殊性導致準確率特別低;多模型融合方式的過程往往特別復雜,模型可解釋性不強,而且預測時間特別長,沒辦法做到實時的性別識別;對話的音頻信息往往含有一些外界噪音和背景音,或者是第二個人的說話信息以上方法在這個場景下準確率低下;對話中含有大量的靜音部分(包括對話中單聲道填充和對話人本身的停頓部分),會影響識別的準確率。
發明內容
為解決上述問題,本發明提出涉及基于語音圖譜和深度學習的實時性別識別方法。
基于語音圖譜和深度學習的實時性別識別方法,包括以下步驟:
S1:基于深度學習算法建立模型;
S2:語音對話過程中實時獲取音頻流;
S3:將獲取的音頻流通過VAD切除靜音部分;
S4:通過fbank提取音頻的數字特征;
S5:將數字特征轉換成語音圖譜,將語音圖譜通過模型進行性別預測,得到性別識別結果。
優選的,所述基于深度學習算法建立模型包括以下步驟:
S11:語音圖譜結合打標標簽生成樣本信息,按照設定比例劃分訓練集合和測試集合;
S12:對語音圖譜作歸一化和正則化處理,保存樣本集合的均值和方差信息;
S13:將訓練集合輸入給下游的resnet網絡,重新訓練網絡最后一層和softmax層,多次循環,不斷擬合神經網絡的相關參數,直到損失達到閥值或者迭代次數達到預設值;
S14:用測試集合進行測試,若模型準確度達到預期值,則輸出模型,否則調整參數或者樣本信息重新訓練模型。
優選的,所述語音圖譜包括若干個768*32的二維數字矩陣。
優選的,所述語音圖譜包括音頻流的頻域和時域信息。
本發明具備以下有益效果:
1.本發明通過VAD切除靜音部分,提升了性別識別的準確率;
2.本發明采用語音圖譜和深度學習結合的方案,利用遷移學習重新訓練resnet網絡,結合多個語音圖譜綜合計算概率的方式大大簡化了整個識別過程;
3.在通話過程中,每一句話的實時識別,可以識別出一通對話中出現男女多個人的識別。
附圖說明
下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江百應科技有限公司,未經浙江百應科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910612980.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音識別方法及裝置
- 下一篇:同聲傳譯處理方法、裝置及設備





