[發(fā)明專利]用于廣播環(huán)境中的話語識別應(yīng)用的話語增強在審
| 申請?zhí)枺?/td> | 201880002787.1 | 申請日: | 2018-05-02 |
| 公開(公告)號: | CN109478408A | 公開(公告)日: | 2019-03-15 |
| 發(fā)明(設(shè)計)人: | 五十嵐卓也 | 申請(專利權(quán))人: | 索尼公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L15/30;G10L21/0272;G10L15/20;G10L21/0208 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 余剛;吳孟秋 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻數(shù)據(jù) 語音命令 麥克風(fēng) 捕獲 音頻數(shù)據(jù)轉(zhuǎn)換 廣播環(huán)境 廣播內(nèi)容 話語識別 輸出文本 文本數(shù)據(jù) 話語 應(yīng)用 | ||
一種系統(tǒng),獲取包括由麥克風(fēng)捕獲的語音命令的第一音頻數(shù)據(jù);識別廣播內(nèi)容中包括的與由麥克風(fēng)捕獲第一音頻數(shù)據(jù)的定時相對應(yīng)的第二音頻數(shù)據(jù);從第一音頻數(shù)據(jù)提取第二音頻數(shù)據(jù)以生成第三音頻數(shù)據(jù);將第三音頻數(shù)據(jù)轉(zhuǎn)換為與語音命令相對應(yīng)的文本數(shù)據(jù);并且輸出文本數(shù)據(jù)。
技術(shù)領(lǐng)域
本技術(shù)涉及信息處理設(shè)備和信息處理方法,并且具體地,涉及能夠在內(nèi)容再現(xiàn)期間使用語音交互時改進(jìn)語音交互的準(zhǔn)確性的信息處理設(shè)備和信息處理方法。
相關(guān)申請的引證
該申請要求于2017年5月16日提交的日本優(yōu)先權(quán)專利申請JP2017-097165的權(quán)益,其全部內(nèi)容通過引證并入本文。
背景技術(shù)
提出了要結(jié)合廣播內(nèi)容執(zhí)行的廣播應(yīng)用(例如,參見PTL 1)。廣播應(yīng)用的使用使能夠顯示例如與廣播內(nèi)容相關(guān)聯(lián)的信息。
此外,與語音識別相關(guān)聯(lián)的用于分析用戶的話語的內(nèi)容的一種技術(shù)(例如,參見PTL 2)。例如,當(dāng)該技術(shù)應(yīng)用于電視接收器或移動終端裝置時,可分析用戶所說的表述并且可響應(yīng)于該話語執(zhí)行處理。
引用列表
專利文獻(xiàn)
PTL 1:JP 2013-187781 A
PTL 2:JP 2014-153663 A
發(fā)明內(nèi)容
技術(shù)問題
順便提及,通常使用附屬遙控器操作電視接收器。然而,在內(nèi)容再現(xiàn)時執(zhí)行與廣播應(yīng)用相關(guān)聯(lián)的操作的情況下,遙控器不是必然適合用作操作方式,并且因此需要使用語音交互的操作方式。在使用這種語音交互的情況下,在用戶的話語期間再現(xiàn)內(nèi)容,并且因此內(nèi)容中的語音變成噪聲,這可能會導(dǎo)致語音交互的準(zhǔn)確性下降。
本技術(shù)是鑒于上述情況做出的,并且目的是改進(jìn)內(nèi)容再現(xiàn)期間使用語音交互時語音交互的準(zhǔn)確性。
問題的解決方案
根據(jù)一個示例性實施方式,本公開涉及一種系統(tǒng),該系統(tǒng)獲取包括由麥克風(fēng)捕獲的語音命令的第一音頻數(shù)據(jù);識別廣播內(nèi)容中包括的與由麥克風(fēng)捕獲第一音頻數(shù)據(jù)的定時相對應(yīng)的第二音頻數(shù)據(jù);從第一音頻數(shù)據(jù)提取第二音頻數(shù)據(jù)以生成第三音頻數(shù)據(jù);將第三音頻數(shù)據(jù)轉(zhuǎn)換為與語音命令相對應(yīng)的文本數(shù)據(jù);并且輸出文本數(shù)據(jù)。
第一音頻數(shù)據(jù)可以包括語音命令和與由麥克風(fēng)捕獲的廣播內(nèi)容相對應(yīng)的第四音頻數(shù)據(jù)。
系統(tǒng)可以是服務(wù)器,并且服務(wù)器可被配置為通過網(wǎng)絡(luò)從包括麥克風(fēng)的設(shè)備中獲取第一音頻數(shù)據(jù)。
根據(jù)另一示例性實施方式,本公開涉及一種由信息處理系統(tǒng)執(zhí)行的方法,該方法包括:獲取包括由麥克風(fēng)捕獲的語音命令的第一音頻數(shù)據(jù);識別廣播內(nèi)容中包括的與由麥克風(fēng)捕獲第一音頻數(shù)據(jù)的定時相對應(yīng)的第二音頻數(shù)據(jù);從第一音頻數(shù)據(jù)提取第二音頻數(shù)據(jù)以生成第三音頻數(shù)據(jù);將第三音頻數(shù)據(jù)轉(zhuǎn)換為與語音命令相對應(yīng)的文本數(shù)據(jù);并且輸出文本數(shù)據(jù)。
根據(jù)另一示例性實施方式,本公開涉及一種包括電路的電子裝置,該電路被配置為:基于向用戶呈現(xiàn)的內(nèi)容獲取第一音頻數(shù)據(jù),第一音頻數(shù)據(jù)包括由麥克風(fēng)捕獲的語音命令和基于向用戶呈現(xiàn)內(nèi)容的背景噪聲;向服務(wù)器系統(tǒng)發(fā)送第一音頻數(shù)據(jù);并且從服務(wù)器系統(tǒng)接收對語音命令的響應(yīng),對語音命令的響應(yīng)由服務(wù)器系統(tǒng)通過基于由電子裝置提供的內(nèi)容信息從第一音頻數(shù)據(jù)中去除背景噪聲來生成。
根據(jù)另一示例性實施方式,本公開涉及一種由電子裝置執(zhí)行的方法,該方法包括:基于向用戶呈現(xiàn)的內(nèi)容獲取第一音頻數(shù)據(jù),第一音頻數(shù)據(jù)包括由麥克風(fēng)捕獲的語音命令和基于向用戶呈現(xiàn)內(nèi)容的背景噪聲;向服務(wù)器系統(tǒng)發(fā)送第一音頻數(shù)據(jù);并且從服務(wù)器系統(tǒng)接收對語音命令的響應(yīng),對語音命令的響應(yīng)由服務(wù)器系統(tǒng)通過基于由電子裝置提供的內(nèi)容信息從第一音頻數(shù)據(jù)中去除背景噪聲來生成。
本發(fā)明的有益效果
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼公司,未經(jīng)索尼公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880002787.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種音頻調(diào)整方法、終端及計算機可讀存儲介質(zhì)
- 音頻數(shù)據(jù)識別方法及系統(tǒng)
- 消除背景音頻數(shù)據(jù)的方法、裝置和系統(tǒng)
- 音頻數(shù)據(jù)確定方法、裝置、設(shè)備和介質(zhì)
- 音頻分類的方法、裝置、設(shè)備以及存儲介質(zhì)
- 一種音頻處理方法及電子設(shè)備
- 一種音頻傳輸方法和裝置
- 一種音頻數(shù)據(jù)生成方法、音頻數(shù)據(jù)轉(zhuǎn)寫方法及其裝置
- 語音數(shù)據(jù)的處理方法、裝置及電子設(shè)備
- 模型訓(xùn)練、數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)





