[發明專利]音頻識別方法及裝置、存儲介質及電子設備有效
| 申請號: | 201711486757.6 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108198573B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 黃瑛;胡明清;王濤;楊琛 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G10L25/48 | 分類號: | G10L25/48;G06F16/683 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉;王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 方法 裝置 存儲 介質 電子設備 | ||
本發明提供了一種音頻識別方法,包括:依據預設的第一選取規則,在待識別音頻中選取目標音頻樣本;按第一音頻指紋提取密度,在所述目標音頻樣本中提取多個音頻指紋;將提取的所述多個音頻指紋與預建立的音頻指紋庫中的指紋進行匹配;當未匹配成功時,在所述待識別音頻中,重新選取新的目標音頻樣本,直至匹配成功,以實現對待識別音頻的識別。本發明提供的識別方法中,首先選取一段音頻作為目標音頻樣本,從所述目標音頻樣本中提取音頻指紋,與預先建立的音頻指紋庫中的指紋進行匹配,在未匹配成功時,在待識別音頻中重新選一段音頻作為新的目標音頻樣本,直至完成對所述待識別音頻的識別,提升了對待識別音頻的識別率。
技術領域
本發明涉及音頻識別技術領域,特別涉及一種音頻識別方法及裝置、存儲介質及電子設備。
背景技術
近年來,音頻影像設備的應用越來越多的出現人們的生活中。人們在應用音樂播放設備聽音樂,或者應用影像設備換看影片的過程中,需要觀看歌詞或字幕。因此,音頻識別技術的在各個領域中的應用越來越廣泛。
現有的音頻識別技術一般采用音頻指紋識別的技術,技術人員經過研發發現,現有的音頻識別過程中,例如歌曲識別,同一首歌,可能會有多個不同版本,不同版本之間局部存在音頻不一致的現象。比如現場版音頻中會存在大量觀眾的歡呼聲或者人說話的聲音,因此在識別過程中提取的指紋頻段如果存在音樂以外的聲音,會降低音頻的識別率。
發明內容
本發明所要解決的技術問題是提供一種音頻識別方法,在音頻識別過程采用多次采集音頻樣本進行識別的方式,以提升音頻的識別率。
本發明還提供一種音頻識別裝置,用以保證上述方法在實際中的實現及應用。
一種音頻識別方法,包括:
依據預設的第一選取規則,在待識別音頻中選取目標音頻樣本;
按第一音頻指紋提取密度,在所述目標音頻樣本中提取多個音頻指紋;
將提取的所述多個音頻指紋與預建立的音頻指紋庫中的指紋進行匹配;所述預建立的音頻指紋庫按第二音頻指紋提取密度進行音頻指紋的提取,所述第一音頻指紋提取密度小于所述第二音頻指紋提取密度;
當未匹配成功時,在所述待識別音頻中,重新選取新的目標音頻樣本,直至匹配成功,以實現對待識別音頻的識別。
上述的方法,可選的,所述依據預設的選取規則,在待識別音頻中選取目標音頻樣本,包括:
確定第一時間長度;
在所述待識別音頻中隨機選取時長為所述第一時間長度的音頻作為目標音頻樣本。
上述的方法,可選的,所述依據預設的選取規則,在待識別音頻中選取目標音頻樣本包括:
對所述待識別音頻中的各個音頻片段進行音頻能量檢測;
在音頻能量大于預設音頻能量閾值的各個音頻片段中,選取一個音頻片段作為目標音頻樣本。
上述的方法,可選的,所述將提取的多個音頻指紋與預建立的音頻指紋庫中的指紋進行匹配包括:
對所述提取的多個音頻指紋進行降采樣處理;
將經過降采樣處理的所述多個音頻指紋,與預建立的音頻指紋庫中的指紋進行匹配。
上述的方法,可選的,所述在待識別音頻中,重新選取新的目標音頻樣本包括:
依據預設的第二選取規則,在所述待識別音頻中重新選取新的目標音頻樣本,所述第二選取規則不同于所述第一選取規則。
上述的方法,可選的,還包括:
當匹配成功時,獲取所述待識別音頻對應的音頻信息,并將所述音頻信息反饋至客戶端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711486757.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種音頻處理方法及裝置
- 下一篇:變聲檢測方法及裝置





