[發(fā)明專利]用于多媒體捕獲中的質(zhì)量提升的方法和裝置有效
| 申請?zhí)枺?/td> | 201180075212.0 | 申請日: | 2011-11-30 |
| 公開(公告)號: | CN103959762B | 公開(公告)日: | 2017-10-27 |
| 發(fā)明(設(shè)計)人: | K·耶爾維寧 | 申請(專利權(quán))人: | 諾基亞技術(shù)有限公司 |
| 主分類號: | H04N5/77 | 分類號: | H04N5/77;H04N9/804;H04N9/806;H04N9/82 |
| 代理公司: | 北京市中咨律師事務(wù)所11247 | 代理人: | 楊曉光,于靜 |
| 地址: | 芬蘭*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多媒體 捕獲 中的 質(zhì)量 提升 | ||
背景技術(shù)
多媒體捕獲能力已經(jīng)成為便攜式設(shè)備中的常見特征。兩個或多個值機(jī)員之間的多媒體呼叫可以包括音頻和視頻信號兩者的同時傳輸。在另一方面,許多人傾向于在他們正在參加的事件,諸如音樂會或體育賽事,中記錄或捕獲音頻和視頻內(nèi)容。
背景噪聲使得移動多媒體通信中的音頻編碼和整體的體驗質(zhì)量遭受了挑戰(zhàn)。多媒體終端常常在具有高的背景噪聲水平的環(huán)境中使用,使得多媒體捕獲易于遭受背景噪聲的侵害。為了改進(jìn)音頻質(zhì)量,多媒體終端通常在語音信號經(jīng)歷音頻編碼之前應(yīng)用噪聲抑制(又稱噪聲消除)作為預(yù)處理步驟。噪聲抑制從來不能完全地在語音和背景噪聲之間進(jìn)行區(qū)分,并且因此通常將噪聲抑制設(shè)計成在盡可能多地衰減背景噪聲和使得盡可能少地使語音信號本身降級之間提供固定取舍。
然而,在上述兩個方面之間直接應(yīng)用此類固定取舍不是最優(yōu)的。例如,在一些多媒體捕獲中,希望的是:也盡可能好地傳遞周圍氣氛(例如,當(dāng)正在現(xiàn)場音樂會中時),而在其它情況中(例如,當(dāng)試圖在高噪聲環(huán)境中解釋重要問題時)所有的背景噪聲將降低語音的清晰度和可懂度,從而是不需要的。也就是說,什么應(yīng)當(dāng)被認(rèn)為是不需要的背景噪聲取決于多媒體捕獲會話的上下文。此外,對特定多媒體捕獲會話來說,多媒體終端的用戶沒有辦法將噪聲抑制或任何其它的預(yù)處理調(diào)節(jié)成更優(yōu)的。
發(fā)明內(nèi)容
現(xiàn)在,已經(jīng)發(fā)明了一種用于緩解上述問題的改進(jìn)方法和實現(xiàn)該方法的技術(shù)設(shè)備。本發(fā)明的各個方面包含:方法、裝置和計算機(jī)程序產(chǎn)品,其由獨立權(quán)利要求中所述的內(nèi)容進(jìn)行表征。在獨立權(quán)利要求中公開了本發(fā)明的各種實施例。
根據(jù)第一方面,提供了一種方法,所述方法包括:由裝置捕獲多媒體內(nèi)容,所述多媒體內(nèi)容包括至少音頻信號和視頻信號;基于所述音頻信號或視頻信號中的至少一者來獲得控制信息;基于從所述視頻信號獲得的所述控制信息來控制所述音頻信號的預(yù)處理;和/或基于從所述音頻信號獲得所述控制信息來控制所述視頻信號的預(yù)處理。
根據(jù)實施例,所述方法還包括:在對所述音頻信號或視頻信號進(jìn)行編碼前應(yīng)用所述預(yù)處理。
根據(jù)實施例,所述音頻信號的所述預(yù)處理是下列中的一個:噪聲抑制,語音水平調(diào)節(jié)、調(diào)節(jié)語音的動態(tài)范圍、向音頻源引導(dǎo)多個麥克風(fēng)布置的麥克風(fēng)波束成型。
根據(jù)實施例,所述方法還包括:確定針對出現(xiàn)在由所述視頻信號所表示的視頻場景上的至少一個音頻源的優(yōu)先級值,所述優(yōu)先級值與由所述視頻場景中的所述音頻源所覆蓋的圖像面積成比例;以及根據(jù)所述優(yōu)先級值來調(diào)節(jié)所述音頻信號的所述預(yù)處理,使得在所述預(yù)處理中著重于來源于覆蓋所述視頻場景的最大圖像面積的音頻源的音頻成分。
根據(jù)實施例,所述方法還包括:確定針對出現(xiàn)在由所述視頻信號所表示的視頻場景上的至少一個音頻源的優(yōu)先級值,所述優(yōu)先級值與由所述視頻場景中的所述音頻源所覆蓋的圖像面積成比例;以及根據(jù)所述優(yōu)先級值來調(diào)節(jié)所述音頻信號的所述預(yù)處理,使得在預(yù)處理中不著重于對整體視頻場景貢獻(xiàn)較少的音頻成分。
根據(jù)實施例,所述方法還包括:檢測由所述視頻信號所表示的視頻場景中的人的面部的至少一部分;以及以與由在所述視頻場景中的所述人的面部所覆蓋的圖像面積成比例來對所述音頻信號的所述預(yù)處理進(jìn)行調(diào)節(jié)。
根據(jù)實施例,所述音頻信號的所述預(yù)處理是噪聲抑制,以及所述方法還包括:以與由在所述視頻場景中的所述人的面部所覆蓋的圖像面積成比例來對背景噪聲的衰減進(jìn)行調(diào)節(jié)。
根據(jù)實施例,所述方法還包括:從所述視頻信號的處理鏈的多個點來獲得用于所述音頻預(yù)處理器控制信號的控制信息,所述多個點位于以下點中的至少一個點:在視頻信號預(yù)處理之前,在視頻信號編碼之前,在視頻編碼和所述視頻信號的編碼的參數(shù)值期間。
根據(jù)實施例,所述視頻信號的所述預(yù)處理是以下中的一個:對圖像幀的細(xì)節(jié)進(jìn)行平滑,對顏色的動態(tài)范圍進(jìn)行調(diào)節(jié),降低所述視頻信號的色域或移除所述視頻信號的不那么必要的部分。
根據(jù)實施例,所述方法還包括確定針對出現(xiàn)在由所述視頻信號所表示的視頻場景上的至少一個對象的優(yōu)先級值,所述優(yōu)先級值與由所述對象貢獻(xiàn)于整體音頻場景的音頻成分成比例;以及根據(jù)所述優(yōu)先級值來調(diào)節(jié)所述視頻信號的所述預(yù)處理,使得在所述預(yù)處理中不重視較少貢獻(xiàn)于整體音頻場景的對象。
根據(jù)實施例,所述方法還包括:從所述音頻信號的處理鏈的多個點獲得用于所述視頻預(yù)處理器控制信號的控制信息,所述多個點位于以下點中的至少一個點:在音頻信號預(yù)處理之前、在音頻信號編碼之前、在音頻編碼和所述音頻信號的編碼的參數(shù)值期間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于諾基亞技術(shù)有限公司,未經(jīng)諾基亞技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201180075212.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





