[發明專利]音頻內容識別方法、裝置、設備和計算機可讀介質有效
| 申請號: | 202010829371.6 | 申請日: | 2020-08-18 |
| 公開(公告)號: | CN111986655B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 孔亞魯;何怡 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/26;G10L15/00;H04N21/233;H04N21/2343;H04N21/439;H04N21/4402 |
| 代理公司: | 北京唯智勤實知識產權代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 內容 識別 方法 裝置 設備 計算機 可讀 介質 | ||
本公開的實施例公開了音頻內容識別方法、裝置、電子設備和計算機可讀介質。該方法的一具體實施方式包括:對音頻進行切分,得到語音片段集合和非語音片段集合;確定上述語音片段集合中的每個語音片段的類型和語種信息;對于上述語音片段集合中的每個語音片段,基于上述語音片段的類型和語種信息,對上述語音片段進行語音識別,得到第一識別結果。該實施方式通過將音頻中的說話和音樂片段用不同的模型進行識別,使兩種音頻內容都能得到更好的識別效果。以及,通過使用不同的模型是被不同語種內容的音頻,進一步提升了語音識別的效果。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及音頻內容識別方法、裝置、設備和計算機可讀介質。
背景技術
為了提升用戶觀看視頻的體驗,需要為視頻添加字幕。人工添加字幕成本高且效率有限。而現有的自動添加字幕技術,在音頻中有多種內容時準確率不能得到保證。其中,音頻中的多種內容例如歌聲、說話聲、咳嗽聲、笑聲、關門聲等。以及,難以應對存在多語種語音片段的音頻。
發明內容
本公開的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開的一些實施例提出了音頻內容識別方法、裝置、設備和計算機可讀介質,來解決以上背景技術部分提到的技術問題。
第一方面,本公開的一些實施例提供了一種音頻內容識別方法,該方法包括:對音頻進行切分,得到語音片段集合和非語音片段集合;確定上述語音片段集合中的每個語音片段的類型和語種信息;對于上述語音片段集合中的每個語音片段,基于上述語音片段的類型和語種信息,對上述語音片段進行語音識別,得到第一識別結果。
第二方面,本公開的一些實施例提供了一種音頻內容識別裝置,裝置包括:切分單元,被配置成對音頻進行切分,得到語音片段集合和非語音片段集合;確定單元,被配置成確定上述語音片段集合中的每個語音片段的類型和語種信息;識別單元,被配置成對于上述語音片段集合中的每個語音片段,基于上述語音片段的類型和語種信息,對上述語音片段進行語音識別,得到第一識別結果。
第三方面,本公開的一些實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現如第一方面中任一實現方式描述的方法。
第四方面,本公開的一些實施例提供了一種計算機可讀介質,其上存儲有計算機程序,其中,程序被處理器執行時實現如第一方面中任一實現方式描述的方法。
本公開的上述各個實施例中的一個實施例具有如下有益效果:通過將音頻中的說話和音樂片段分別進行識別,使兩種音頻內容都能得到更好的識別效果。以及,通過對不同語種內容的音頻分別進行識別,進一步提升了語音識別的效果。
附圖說明
結合附圖并參考以下具體實施方式,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標記表示相同或相似的元素。應當理解附圖是示意性的,原件和元素不一定按照比例繪制。
圖1是本公開的一些實施例的音頻內容識別方法的一個應用場景的示意圖;
圖2是根據本公開的音頻內容識別方法的一些實施例的流程圖;
圖3是根據本公開的音頻內容識別方法的另一些實施例的流程圖;
圖4是根據本公開的音頻內容識別裝置的一些實施例的結構示意圖;
圖5是適于用來實現本公開的一些實施例的電子設備的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010829371.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型防松動螺母
- 下一篇:適用于全方位的智能照明控制系統
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





