[發明專利]歌詞識別方法、裝置、電子設備及可讀存儲介質在審

申請號：	202111465773.3	申請日：	2021-12-03
公開（公告）號：	CN114141250A	公開（公告）日：	2022-03-04
發明（設計）人：	洛晉申;張培熙;黨正軍	申請（專利權）人：	廣州酷狗計算機科技有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/14;G10L15/16
代理公司：	北京柏杉松知識產權代理事務所(普通合伙) 11413	代理人：	孫翠賢;孟維娜
地址：	510655 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	歌詞識別方法裝置電子設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種歌詞識別方法，其特征在于，所述方法包括：

獲取待識別歌詞的目標音頻；

從所述目標音頻中，選取待分析音頻片段；其中，所述待分析音頻片段為屬于唱歌類型的片段；

對所述待分析音頻片段進行語音識別，得到識別結果；

基于所得到的識別結果，生成所述目標音頻的歌詞內容。

2.根據權利要求1所述的方法，其特征在于，從所述目標音頻中，選取待分析音頻片段，包括：

從所述目標音頻中，提取多個音頻片段；其中，所述多個音頻片段的片段內容覆蓋所述目標音頻的音頻內容；

對各個音頻片段進行音頻類型識別，得到各個音頻片段對應的識別結果；其中，所述音頻類型識別所針對的音頻類型包括唱歌類型；

確定所對應識別結果為唱歌類型的音頻片段，作為待分析音頻片段。

3.根據權利要求2所述的方法，其特征在于，所述對各個音頻片段進行音頻類型識別，得到各個音頻片段對應的識別結果，包括：

針對每一音頻片段，將該音頻片段的音頻數據輸入預先訓練的分類模型，得到該音頻片段對應的識別結果；

其中，所述分類模型為預先基于樣本音頻和類型標簽所訓練的分類模型，所述類型標簽包括唱歌類型。

4.根據權利要求2所述的方法，其特征在于，所述從所述目標音頻中，提取多個音頻片段，包括：

采用滑動窗口，從所述目標音頻中依此選取具有指定長度的各個音頻片段，其中，所述指定長度為滑動窗口的窗口大小。

5.根據權利要求4所述的方法，其特征在于，所述滑動窗口的滑動步長小于所述窗口大小。

6.根據權利要求1-5任一項所述的方法，其特征在于，所述待分析音頻片段的數量為多個；

所述對所述待分析音頻片段進行語音識別，得到識別結果，包括：

若多個待分析音頻片段中，存在符合預定整合條件的各個目標片段，則獲取各個目標片段對應的整合片段，其中，所述預定整合條件包括：音頻時間連續且相鄰片段存在重疊的音頻時間；所述整合片段為所述目標音頻中以第一時間點為起始時間點，以第二時間點為終止時間點的音頻片段，所述第一時間點為各個目標片段的起始時間點的最小值，所述第二時間點為各個目標片段的終止時間點的最大值；

對所述整合片段以及其他待分析音頻片段，分別進行語音識別，得到識別結果；其中，其他待分析音頻片段為除各個目標片段以外的待分析音頻片段。

7.根據權利要求1-5任一項所述的方法，其特征在于，所述基于所得到的識別結果，生成所述目標音頻的歌詞內容，包括：

對所識別得到的識別結果進行糾錯處理；

利用糾錯處理后的識別結果，構成所述目標音頻的歌詞內容。

8.一種歌詞識別裝置，其特征在于，所述裝置包括：

獲取模塊，用于獲取待識別歌詞的目標音頻；

選取模塊，用于從所述目標音頻中，選取待分析音頻片段；其中，所述待分析音頻片段為屬于唱歌類型的片段；

識別模塊，用于對所述待分析音頻片段進行語音識別，得到識別結果；

生成模塊，用于基于所得到的識別結果，生成所述目標音頻的歌詞內容。

9.一種電子設備，其特征在于，包括處理器、通信接口、存儲器和通信總線，其中，處理器，通信接口，存儲器通過通信總線完成相互間的通信；

存儲器，用于存放計算機程序；

處理器，用于執行存儲器上所存放的程序時，實現權利要求1-7任一所述的方法步驟。