[發明專利]直播間歌唱識別方法、裝置及服務器、存儲介質有效
| 申請號: | 201911229100.0 | 申請日: | 2019-12-04 |
| 公開(公告)號: | CN111147871B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 張大威 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;H04N21/233;H04N21/439;G10L25/30;G10L25/24 |
| 代理公司: | 北京先進知識產權代理有限公司 11648 | 代理人: | 邵勁草 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 直播 歌唱 識別 方法 裝置 服務器 存儲 介質 | ||
1.一種直播間歌唱識別方法,其特征在于,所述方法包括:
獲得目標應用程序的直播間處于播放狀態的直播流,并對所述直播流進行處理,以得到所述直播流的聲音特征向量序列;
經音樂聲分類模型對所述聲音特征向量序列進行分類,并得到分類結果,其中,所述音樂聲分類模型的目標函數用于將所述聲音特征向量序列是否包括音樂聲特征向量作為分類基準進行分類;
如果所述分類結果表征所述聲音特征向量序列中包括音樂聲特征向量,則從所述直播流中提取出包括音樂聲特征向量的音頻流;
提取出所述包括音樂聲特征向量的音頻流中的人聲特征向量;
經清唱聲分類模型對所述人聲特征向量進行分類,并得到分類結果,其中,所述清唱聲分類模型的目標函數用于將所述人聲特征向量是否包括清唱聲特征向量作為分類基準進行分類。
2.根據權利要求1所述的方法,其特征在于,所述音樂聲分類模型為長短期記憶分類模型,所述長短期記憶分類模型包括依次連接的兩組依次相連的長短期記憶網絡層和隨機失活處理層、特征連接層以及全連接層,每個所述隨機失活處理層的輸出與所述特征連接層的輸入連接,所述經所述音樂聲分類模型對所述聲音特征向量序列進行分類,并得到分類結果包括:
經所述長短期記憶網絡層根據聲音特征向量序列中的音頻幀之間的上下文依賴關系,生成包含每個時間步的音頻幀的特征的聲音特征向量序列;
再經隨機失活處理層對生成的聲音特征向量序列中的部分特征值進行隨機歸零處理,輸出處理后的聲音特征向量序列至下一組依次相連的長短期記憶網絡層和隨機失活處理層,以依次執行與第一組依次相連的長短期記憶網絡層和隨機失活處理層對上述的聲音特征向量序列的相同處理;
經所述特征連接層將每個所述隨機失活處理層輸出的聲音特征向量序列連接生成待分類特征向量;
經全連接層對所述待分類特征向量進行分類,并得到分類結果。
3.根據權利要求1所述的方法,其特征在于,所述清唱聲分類模型為長短期記憶分類模型,所述長短期記憶分類模型包括依次連接的兩組依次相連的長短期記憶網絡層和隨機失活處理層、特征連接層以及全連接層,每個所述隨機失活處理層的輸出與所述特征連接層的輸入連接,所述經所述清唱聲分類模型對所述人聲特征向量進行分類,并得到分類結果包括:
經所述長短期記憶網絡層根據人聲特征向量中的音頻幀之間的上下文依賴關系,生成包含每個時間步的音頻幀的特征的人聲特征向量;
再經隨機失活處理層對生成的人聲特征向量中的部分特征值進行隨機歸零處理,輸出處理后的人聲特征向量至下一組依次相連的長短期記憶網絡層和隨機失活處理層,以依次執行與第一組依次相連的長短期記憶網絡層和隨機失活處理層對上述的人聲特征向量的相同處理;
經所述特征連接層將每個所述隨機失活處理層輸出的人聲特征向量連接生成待分類特征向量;
經全連接層對所述待分類特征向量進行分類,并得到分類結果。
4.根據權利要求1所述的方法,其特征在于,所述獲得目標應用程序的直播間處于播放狀態的直播流,并對所述直播流進行處理,以得到所述直播流的聲音特征向量序列包括:
獲得目標應用程序的直播間處于播放狀態的直播流,經解碼器對所述直播流進行音視頻分離得到音頻流;
提取所述音頻流中的聲音特征向量序列。
5.根據權利要求4所述的方法,其特征在于,所述聲音特征向量序列為二維聲音特征向量序列,所述提取所述音頻流中的聲音特征向量序列包括:
對所述音頻流進行處理得到梅爾頻譜;
對所述梅爾頻譜進行多次卷積池化處理,以提取降維后的聲音特征向量序列;
經至少一個全連接層對降維后的聲音特征向量序列進行處理,生成所述音頻流的二維聲音特征向量序列。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
如果所述分類結果表征所述聲音特征向量序列包括清唱聲特征向量,則將所述直播間的直播摘要信息推送至目標應用程序的直播列表界面展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911229100.0/1.html,轉載請聲明來源鉆瓜專利網。





