[發(fā)明專利]增強(qiáng)包含語音的音頻數(shù)據(jù)的方法、計(jì)算裝置和介質(zhì)有效
| 申請?zhí)枺?/td> | 201710384118.2 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107464555B | 公開(公告)日: | 2023-07-28 |
| 發(fā)明(設(shè)計(jì))人: | O·索恩 | 申請(專利權(quán))人: | 索尼移動通訊有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L15/26;G10L25/63 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 呂俊剛;王青芝 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 增強(qiáng) 包含 語音 音頻 數(shù)據(jù) 方法 計(jì)算 裝置 介質(zhì) | ||
1.一種在包括處理器(3、3')的計(jì)算裝置(1、1')上增強(qiáng)包含語音的音頻數(shù)據(jù)(A)的方法,所述方法由所述計(jì)算裝置(1、1')中的所述處理器(3、3')執(zhí)行并且包括以下步驟:
獲得特征數(shù)據(jù)([D]),所述特征數(shù)據(jù)([D])通過主題和情感中的至少一個(gè)來表征所述包含語音的音頻數(shù)據(jù)(A)中的時(shí)間段,
針對所述包含語音的音頻數(shù)據(jù)(A)中的相應(yīng)時(shí)間段并且基于所述特征數(shù)據(jù)([D]),獲得將在所述相應(yīng)時(shí)間段被添加到所述包含語音的音頻數(shù)據(jù)(A)的背景聲音(B)的期望的屬性,以及
提供所述相應(yīng)時(shí)間段的所述期望的屬性,以使得能夠在所述相應(yīng)時(shí)間段內(nèi)將所述包含語音的音頻數(shù)據(jù)(A)與具有所述期望的屬性的背景聲音(B)組合,
其中,獲得特征數(shù)據(jù)([D])的步驟包括:處理所述包含語音的音頻數(shù)據(jù)(A)以提取音頻特征;通過基于聲學(xué)的情感分析算法分析所述音頻特征,以確定所述包含語音的音頻數(shù)據(jù)(A)中的至少一個(gè)時(shí)間段中的語音的情感;以及生成所述至少一個(gè)時(shí)間段與表示所述情感的情感標(biāo)識符SID之間的關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的方法,其中,獲得所述期望的屬性,以匹配所述相應(yīng)時(shí)間段的主題和/或情感。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述主題表示所述包含語音的音頻數(shù)據(jù)(A)中的所述相應(yīng)時(shí)間段內(nèi)的口語的內(nèi)容或話題。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述特征數(shù)據(jù)([D])至少部分地通過自動分析所述包含語音的音頻數(shù)據(jù)(A)中的語音來生成。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述情感表示所述包含語音的音頻數(shù)據(jù)(A)中的所述相應(yīng)時(shí)間段內(nèi)的口語的情緒,并且包括以下項(xiàng)中的一種或更多種:正面情感、負(fù)面情感、中性情感、生氣、愉悅、悲傷、驚奇、指責(zé)、害怕、焦慮、不悅、厭惡、輕松、渴望、愛、恨、平靜、激動和擔(dān)心。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述期望的屬性至少部分地基于所述相應(yīng)時(shí)間段的情感來獲得,并且表示以下項(xiàng)中的一個(gè)或更多個(gè):所述背景聲音(B)的回放音量、所述背景聲音(B)的節(jié)拍、所述背景聲音(B)的音調(diào)和所述背景聲音(B)的基調(diào)。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述特征數(shù)據(jù)([D])還通過文學(xué)種類(CID)來表征所述包含語音的音頻數(shù)據(jù)(A)中的所述時(shí)間段,并且其中,進(jìn)一步獲得所述期望的屬性,以匹配所述相應(yīng)時(shí)間段的所述文學(xué)種類(CID)。
8.根據(jù)權(quán)利要求1所述的方法,其中,獲得特征數(shù)據(jù)([D])的步驟包括:通過自然語言處理來處理所述包含語音的音頻數(shù)據(jù)(A)。
9.根據(jù)權(quán)利要求1所述的方法,其中,獲得特征數(shù)據(jù)([D])的步驟包括:通過對所述包含語音的音頻數(shù)據(jù)(A)運(yùn)行語音識別算法來生成與所述包含語音的音頻數(shù)據(jù)(A)相對應(yīng)的文本(A_T);將所述文本(A_T)與所述包含語音的音頻數(shù)據(jù)(A)中的時(shí)間點(diǎn)相關(guān)聯(lián);對所述文本(A_T)運(yùn)行主題劃分算法和/或情感分析算法以確定所述文本(A_T)中的主題和/或情感,每個(gè)主題和/或情感是針對所述文本(A_T)中的相應(yīng)文本片段來確定的,所述方法還包括以下步驟:通過確定所述包含語音的音頻數(shù)據(jù)(A)中的與所述文本片段相對應(yīng)的時(shí)間段來生成所述特征數(shù)據(jù)([D]);以及生成所述時(shí)間段與表示所述主題的主題標(biāo)識符(TID)和/或表示所述情感的情感標(biāo)識符(SID)之間的關(guān)聯(lián)。
10.根據(jù)權(quán)利要求9所述的方法,其中,對所述文本運(yùn)行所述主題劃分算法,以關(guān)于至少兩個(gè)不同粒度水平確定所述主題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼移動通訊有限公司,未經(jīng)索尼移動通訊有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710384118.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:多音階鼓琴
- 下一篇:月餅包裝盒(秋韻1)
- 同類專利
- 專利分類
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





