[發明專利]自動音頻摘要生成方法和裝置有效
| 申請號: | 202011623119.6 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112784094B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 俞凱;吳夢玥;徐薛楠;丁翰林;謝澤宇 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F16/64 | 分類號: | G06F16/64;G06F16/683;G06K9/62 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 音頻 摘要 生成 方法 裝置 | ||
本發明公開自動音頻摘要生成方法和裝置,其中,一種自動音頻摘要生成方法,包括:預訓練聲音事件檢測模型,其中,所述聲音事件檢測模型包括音頻特征提取部分和輸出部分;將所述音頻特征提取部分作為音頻摘要自動生成模型的音頻編碼器;端到端地訓練所述音頻摘要自動生成模型。本申請實施例的方案通過聲音事件檢測任務上的預訓練和遷移學習得到更好的音頻編碼器,從而生成更加準確的音頻摘要描述,進而能夠對任何新的音頻生成對應的文本描述,自動地建立起音頻—文本數據庫,能夠支持類似基于不限形式的自然語言的音頻檢索引擎的實際應用。
技術領域
本發明屬于音頻摘要技術領域,尤其涉及自動音頻摘要生成方法和裝置。
背景技術
相關技術中,自動音頻摘要(Automated audio captioning,AAC)旨在生成音頻片段的摘要描述。在音頻摘要中描述了許多概念,范圍從諸如聲音事件之類的局部信息到諸如聲學場景之類的全局信息。當前,AAC的主流方法是端到端的編碼器-解碼器結構,希望編碼器能夠自動學習音頻中嵌入的所有概念。
音頻自動摘要生成任務可以根據一段輸入的音頻,一個編碼器將音頻編碼成一系列向量,接著一個解碼器將編碼得到的向量解碼成自然語言摘要。發明人在實現本申請的過程中發現:生成的音頻摘要描述常常不準確,尤其是對聲音事件和聲學場景的描述。
發明內容
本發明實施例提供一種自動音頻摘要生成方法和裝置,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種自動音頻摘要生成方法,包括:預訓練聲音事件檢測模型,其中,所述聲音事件檢測模型包括音頻特征提取部分和輸出部分;將所述音頻特征提取部分作為音頻摘要自動生成模型的音頻編碼器;以及端到端地訓練所述音頻摘要自動生成模型。
第二方面,本發明實施例提供一種自動音頻摘要生成裝置,包括:預訓練模塊,配置為預訓練聲音事件檢測模型,其中,所述聲音事件檢測模型包括音頻特征提取部分和輸出部分;遷移模塊,配置為將所述音頻特征提取部分作為音頻摘要自動生成模型的音頻編碼器;以及訓練模塊,配置為端到端地訓練所述音頻摘要自動生成模型。
第三方面,提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本發明任一實施例的自動音頻摘要生成方法的步驟。
第四方面,本發明實施例還提供一種計算機程序產品,所述計算機程序產品包括存儲在非易失性計算機可讀存儲介質上的計算機程序,所述計算機程序包括程序指令,當所述程序指令被計算機執行時,使所述計算機執行本發明任一實施例的自動音頻摘要生成方法的步驟。
本申請實施例的方案通過聲音事件檢測任務上的預訓練和遷移學習得到更好的音頻編碼器,從而生成更加準確的音頻摘要描述,進而能夠對任何新的音頻生成對應的文本描述,自動地建立起音頻—文本數據庫,能夠支持類似基于不限形式的自然語言的音頻檢索引擎的實際應用。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明一實施例提供的一種自動音頻摘要生成方法的流程圖;
圖2為本發明一實施例提供的一種用于自動音頻摘要的遷移學習圖;
圖3為本發明一實施例提供的編碼器-解碼器AAC系統的示意圖;
圖4為本發明一實施例提供的一種自動音頻摘要生成裝置的框圖;
圖5是本發明一實施例提供的電子設備的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011623119.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于深度學習的寬帶信號參數估計方法
- 下一篇:一種膩子自動攪拌擠出裝置





