[發(fā)明專利]一種識別特征聲音的方法和裝置在審
| 申請?zhí)枺?/td> | 201810801712.1 | 申請日: | 2018-07-20 |
| 公開(公告)號: | CN110751942A | 公開(公告)日: | 2020-02-04 |
| 發(fā)明(設(shè)計)人: | 李俊玲;王博 | 申請(專利權(quán))人: | 北京京東金融科技控股有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/06;G10L15/10;G10L15/26;G10L15/24 |
| 代理公司: | 11219 中原信達知識產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 張一軍;李陽 |
| 地址: | 101111 北京市北京經(jīng)濟*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聲音數(shù)據(jù) 特征聲音 段單元 計算機技術(shù)領(lǐng)域 方法和裝置 聲音識別 時間距離 取出 合并 檢測 | ||
1.一種識別特征聲音的方法,其特征在于,包括:
對待檢測聲音數(shù)據(jù)進行拆分處理,并截取出至少一段單元聲音數(shù)據(jù);
從所述至少一段單元聲音數(shù)據(jù)中,確定出屬于特征聲音的單元聲音數(shù)據(jù);
根據(jù)所述屬于特征聲音的單元聲音數(shù)據(jù)之間的時間距離,對其進行合并以得到特征聲音片段。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待檢測聲音數(shù)據(jù)進行拆分處理,并截取出至少一段單元聲音數(shù)據(jù)的步驟包括:
根據(jù)滑動窗口對待檢測聲音數(shù)據(jù)進行拆分處理;
截取出單元聲音數(shù)據(jù),所述單元聲音數(shù)據(jù)為每個滑動窗口中包括的聲音數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述至少一段單元聲音數(shù)據(jù)中,確定出屬于特征聲音的單元聲音數(shù)據(jù)的步驟包括:
通過訓(xùn)練的檢測模型,確定每段單元聲音數(shù)據(jù)為特征聲音的概率;
根據(jù)預(yù)設(shè)的概率閾值,從所述至少一段單元聲音數(shù)據(jù)中,標(biāo)注出屬于特征聲音的單元聲音數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在通過訓(xùn)練的檢測模型,確定每段單元聲音數(shù)據(jù)為特征聲音的概率之前,還包括:
獲取標(biāo)注后的訓(xùn)練數(shù)據(jù),其中標(biāo)注為1的訓(xùn)練數(shù)據(jù)為特征聲音,標(biāo)注為0的訓(xùn)練數(shù)據(jù)為非特征聲音;
搭建包括3層二維卷積神經(jīng)網(wǎng)絡(luò)以及兩層全連接層的網(wǎng)絡(luò)模型,其中,最后一層全連接層包含有采用sigmoid激活函數(shù)的神經(jīng)元;
基于所述訓(xùn)練數(shù)據(jù)和所述網(wǎng)絡(luò)模型,訓(xùn)練得到檢測模型,其中目標(biāo)損失函數(shù)Loss為:
Loss=-∑targets*log(predict)
targets表示真實值,取值為0或者1;predict表示預(yù)測值。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,
根據(jù)預(yù)設(shè)的概率閾值,從所述至少一段單元聲音數(shù)據(jù)中,標(biāo)注出屬于特征聲音的單元聲音數(shù)據(jù)的步驟包括:
判斷單元聲音數(shù)據(jù)為特征聲音的概率是否大于預(yù)設(shè)的概率閾值,如果大于,則將該單元聲音數(shù)據(jù)標(biāo)注為1;否則標(biāo)注為0;
根據(jù)所述屬于特征聲音的單元聲音數(shù)據(jù)之間的時間距離,對其進行合并以得到特征聲音片段的步驟包括:
按照時間順序,將連續(xù)標(biāo)注為1的單元聲音數(shù)據(jù)進行合并,以得到至少一段的初步特征聲音片段。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在按照時間順序,將連續(xù)標(biāo)注為1的單元聲音數(shù)據(jù)進行合并之后,還包括:
判斷所述至少一段的步特征聲音片段之間的時間距離是否小于預(yù)設(shè)的距離偏移量;如果小于,則將其進行合并以得到特征聲音片段。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對待檢測聲音數(shù)據(jù)進行拆分處理,并截取出至少一段單元聲音數(shù)據(jù)之前,還包括:
對所述待檢測聲音進行加重處理;
通過漢明窗對所述加重處理后的待檢測聲音進行加窗處理。
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述滑動窗口的尺寸為0.3s-0.7s,所述滑動窗口的步長為70ms-85ms;和/或,
所述特征聲音為豬咳嗽聲。
9.一種識別特征聲音的裝置,其特征在于,包括:
單元聲音數(shù)據(jù)截取模塊,用于對待檢測聲音數(shù)據(jù)進行拆分處理,并截取出至少一段單元聲音數(shù)據(jù);
特征聲音確定模塊,用于從所述至少一段單元聲音數(shù)據(jù)中,確定出屬于特征聲音的單元聲音數(shù)據(jù);
特征聲音片段確定模塊,用于根據(jù)所述屬于特征聲音的單元聲音數(shù)據(jù)之間的時間距離,對其進行合并以得到特征聲音片段。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述單元聲音數(shù)據(jù)截取模塊,還用于根據(jù)滑動窗口對待檢測聲音數(shù)據(jù)進行拆分處理;截取出單元聲音數(shù)據(jù),所述單元聲音數(shù)據(jù)為每個滑動窗口中包括的聲音數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東金融科技控股有限公司,未經(jīng)北京京東金融科技控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810801712.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用觸覺反饋的聲音數(shù)據(jù)輸出和處理
- 聲音數(shù)據(jù)檢索支持設(shè)備、聲音數(shù)據(jù)再現(xiàn)設(shè)備、以及程序
- 聲音數(shù)據(jù)合成裝置
- 聲音處理裝置、聲音數(shù)據(jù)選擇方法和聲音數(shù)據(jù)選擇程序
- 聽覺顯示裝置及方法
- 電子裝置與聲音數(shù)據(jù)傳輸方法
- 學(xué)習(xí)輔助裝置、學(xué)習(xí)輔助系統(tǒng)和學(xué)習(xí)輔助方法
- 車輛行駛環(huán)境聲音的處理方法、處理裝置和車輛
- 聲音數(shù)據(jù)提供系統(tǒng)、用戶終端、記錄介質(zhì)、輸出裝置
- 圖像聲音數(shù)據(jù)記錄裝置、圖像聲音數(shù)據(jù)重放裝置、圖像聲音數(shù)據(jù)錄放裝置、圖像聲音數(shù)據(jù)記錄方法,圖像聲音數(shù)據(jù)重放方法及媒體
- 一種基于衛(wèi)星系統(tǒng)的雙主機安全保密計算機
- 一種基于衛(wèi)星系統(tǒng)的單主機安全保密計算機
- 基于北斗衛(wèi)星系統(tǒng)的互聯(lián)網(wǎng)/物聯(lián)網(wǎng)計算機智能模塊
- 一種安全保密計算機
- 基于北斗衛(wèi)星系統(tǒng)的互聯(lián)網(wǎng)/物聯(lián)網(wǎng)計算機智能模塊
- 一種基于計算機技術(shù)的多媒體教學(xué)設(shè)備
- 計算機故障的診斷方法、裝置及存儲介質(zhì)
- 一種計算機技術(shù)轉(zhuǎn)讓用便于查找的文件儲存箱
- 基于IT技術(shù)問答網(wǎng)站的計算機技術(shù)領(lǐng)域發(fā)展趨勢分析方法
- 計算機輸入輸出裝置





