[發明專利]增強包含語音的音頻數據的方法、計算裝置和介質有效
| 申請號: | 201710384118.2 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107464555B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | O·索恩 | 申請(專利權)人: | 索尼移動通訊有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L15/26;G10L25/63 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 呂俊剛;王青芝 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增強 包含 語音 音頻 數據 方法 計算 裝置 介質 | ||
本申請涉及增強包含語音的音頻數據的方法、計算裝置和介質。一種編輯方法(40)促成向包含語音的音頻數據添加背景聲音以增強收聽體驗的任務。所述編輯方法(40)由計算裝置中的處理器執行,并且包括:獲得(41)特征數據,所述特征數據通過主題和情感中的至少一個來表征所述音頻數據中的時間段;針對所述音頻數據中的相應時間段并且基于所述特征數據,獲得(43)將在所述相應時間段被添加到所述音頻數據的背景聲音的期望的屬性,以及提供(44)所述相應時間段的期望的屬性,以使得能夠在所述相應時間段內將所述音頻數據與具有所述期望的屬性的背景聲音組合。可自動地或者通過手動用戶干預來選擇和添加背景聲音。
技術領域
本發明總體上涉及通過添加背景聲音來增強包含語音的音頻數據的技術。
背景技術
在現代社會,分發數字媒體文件是常見的。包含語音的數字音頻文件已實現日益普及,并且通過互聯網可供下載或在線流傳輸。此包含語音的數字音頻文件包括被大聲讀出的文學文本的記錄的所謂有聲書或有聲讀物、以及作為分章節的一系列音頻記錄的所謂播客。專業演員(諸如,傳媒公司)以及不太專業的演員和私人可將數字音頻文件如同其它數字媒體文件一樣可用。專業演員可利用本領域中的高級設備和專門人才來編輯和制作音頻文件,以提供優良的收聽體驗。為了增加收聽體驗的深度,不常見的是專業的包含語音的音頻文件包含諸如音樂和其它環境聲音的背景聲音。因此,添加背景聲音,以動態地匹配音頻文件中的言語的內容和背景。
有各式各樣的允許用戶手動編輯和掌握音頻文件的傳統計算機程序(“音頻編輯器”)。這些傳統音頻編輯器中的一些還允許用戶手動選擇并輸入背景聲音。然而,即使對于專業的用戶,向音頻文件添加背景聲音是復雜且勞動密集型的任務。對于非專業的用戶,使用這種類型的音頻編輯器從而至少實現真正良好的收聽體驗存在更大的挑戰。
基本上,想要使用傳統音頻編輯器向音頻文件添加背景聲音的用戶需要經歷一系列勞動密集型的步驟(諸如,收聽整個音頻文件),思考在音頻文件的不同部分中什么背景聲音會是適宜的,尋找或創建背景聲音的聲音文件,輸入聲音文件,尋找每個聲音文件在音頻文件中的正確位置,選擇每個聲音文件在音頻文件中的起點和終點,并且針對音頻文件的不同部分中的語音來選擇每個聲音文件的正確音量。
發明內容
本發明的目的是至少部分地克服現有技術的一個或更多個限制。
另一個目的是促成向包含語音的音頻數據添加背景聲音的任務。
其它目的是促成通過向包含語音的音頻數據添加背景聲音來增強收聽體驗的任務。
這些目的中的一個或更多個以及可根據以下描述而清楚的其它目的至少部分地通過在計算裝置上增強包含語音的音頻數據的方法、計算機可讀介質和用于增強包含語音的音頻數據的計算裝置來實現,其實施方式由從屬權利要求書限定。
本發明的第一方面是一種在包括處理器的計算裝置上增強包含語音的音頻數據的方法。該方法是由計算裝置中的處理器執行,并且包括:獲得特征數據,所述特征數據通過主題和情感中的至少一個來表征所述音頻數據中的時間段;針對所述音頻數據中的相應時間段并且基于所述特征數據,獲得將在所述相應時間段添加到所述音頻數據中的背景聲音的期望的屬性;以及提供所述相應時間段的期望的屬性,以使得能夠在所述相應時間段內將所述音頻數據與具有所述期望的屬性的背景聲音組合。
通過指示在音頻數據中的不同時間段中的背景聲音的所期望的屬性,第一方面顯著地促成了添加與音頻數據中的語音的內容和/或上下文適當地匹配的背景聲音的任務。特征數據可以是預生成的,用于表示音頻數據中的語音并且被存儲在計算裝置的處理器能訪問的存儲器中。第一方面的處理器因此可從存儲器中獲取這樣預生成的特征數據。另選地,特征數據可通過包括專用處理步驟的方法按需要來生成,該專用處理步驟對音頻數據進行操作,以生成特征數據。在任一種情況下,特征數據至少部分地得自于對音頻數據中的語音進行自動分析,從而向音頻數據中的個體時間段分配主題和/或情感。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼移動通訊有限公司,未經索尼移動通訊有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710384118.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多音階鼓琴
- 下一篇:月餅包裝盒(秋韻1)





