[發(fā)明專利]電子設(shè)備定向音頻視頻采集有效
| 申請(qǐng)?zhí)枺?/td> | 201310384381.3 | 申請(qǐng)日: | 2008-11-26 |
| 公開(公告)號(hào): | CN103475976B | 公開(公告)日: | 2017-04-12 |
| 發(fā)明(設(shè)計(jì))人: | M·蒂科;M·S·阿馬萊南;K·奧茨坎;M·K·韋維萊南 | 申請(qǐng)(專利權(quán))人: | 諾基亞技術(shù)有限公司 |
| 主分類號(hào): | H04R3/00 | 分類號(hào): | H04R3/00;G06T7/246;G10L21/0208;H04N7/14;H04R27/00;H04R29/00 |
| 代理公司: | 北京市金杜律師事務(wù)所11256 | 代理人: | 酆迅,程延霞 |
| 地址: | 芬蘭*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 電子設(shè)備 定向 音頻視頻 采集 | ||
本申請(qǐng)為2011年3月15日進(jìn)入中國(guó)國(guó)家階段的、申請(qǐng)日為2008年11月26日的、題為“電子設(shè)備定向音頻視頻采集”的第200880131153.2號(hào)中國(guó)專利申請(qǐng)的分案申請(qǐng)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種電子設(shè)備,并且更具體地涉及用于電子設(shè)備的定向音頻視頻采集。
背景技術(shù)
具有免提電話或者免提應(yīng)用的電子設(shè)備在本領(lǐng)域中是已知的。在免提語(yǔ)音通話期間,可將除用戶的語(yǔ)音之外的任何聲音視為背景噪聲,這些背景噪聲應(yīng)當(dāng)被衰減(或者消除)以提高電話交談的質(zhì)量。噪聲可能涉及與發(fā)送和接收信號(hào)相對(duì)應(yīng)的環(huán)境、網(wǎng)絡(luò)和音頻鏈。環(huán)境噪聲(或者干擾的聲音/背景噪聲)在免提語(yǔ)音通話期間可能很容易造成干擾,并且有時(shí)可能會(huì)超過(guò)用戶的語(yǔ)音(信號(hào))水平,使得分離二者變得非常困難。這可能導(dǎo)致較差的信噪比(SNR)。
在本領(lǐng)域中存在若干種用于語(yǔ)音通信的僅針對(duì)音頻源的跟蹤技術(shù)。通過(guò)使用能夠?qū)υ?用戶)方向之外的敏感度進(jìn)行衰減的定向性圖案而提供音頻發(fā)送的常規(guī)配置,可以改善SNR并在傳輸源信號(hào)之前從該信號(hào)中消除不需要的信號(hào)。然而,這假設(shè)了已經(jīng)知曉或者可以估計(jì)信號(hào)的到達(dá)方向(DOA)。此外,使用常規(guī)技術(shù)的基于音頻的跟蹤一般不適合于靜默的移動(dòng)源。
在手持移動(dòng)通信設(shè)備的情況中,聲源的相對(duì)位置由于設(shè)備的移動(dòng)可能也會(huì)發(fā)生移動(dòng)。相比于在其中可以假設(shè)設(shè)備相比于聲源的移動(dòng)是處于相對(duì)靜止中的傳統(tǒng)會(huì)議室設(shè)置而言,設(shè)備的連續(xù)把持(例如,由于自然的手勢(shì)和手部動(dòng)作)使得源跟蹤任務(wù)的挑戰(zhàn)性大為增加。設(shè)備移動(dòng)可以引起DOA中非常快的改變,而聲源的移動(dòng)則不大可能造成這種情況。
在典型的移動(dòng)通信語(yǔ)音通話中,用戶與設(shè)備的相對(duì)位置可以改變。由于僅針對(duì)音頻的跟蹤系統(tǒng)為了計(jì)算一個(gè)或多個(gè)DOA角而需要音頻數(shù)據(jù),因此這對(duì)跟蹤信息造成處理延遲(從而妨礙了實(shí)時(shí)源位置信息更新)。遺憾的是,在實(shí)時(shí)語(yǔ)音通信中為了流暢運(yùn)行而需要最小化端對(duì)端延遲。這可能引起若干問(wèn)題。例如,當(dāng)用戶在講話停頓期間移動(dòng)時(shí),源跟蹤器在該靜默期中可能失去正確的源位置。當(dāng)通話者開始講話時(shí),語(yǔ)句的開頭可能因錯(cuò)誤的位置信息而失真。從多麥克風(fēng)降噪的角度來(lái)看,這意味著用戶的語(yǔ)音被作為背景噪聲源處理,直至考慮到正確的位置信息。
另一類定向音頻采集算法通過(guò)利用信號(hào)的統(tǒng)計(jì)屬性來(lái)形成麥克風(fēng)陣列的定向性圖案。這些算法并不利用專用的聲源位置信息,而是試圖自適應(yīng)于所需的源。通常這些算法不僅需要適應(yīng)于源位置中的變化,而且還需要適應(yīng)于室內(nèi)沖擊響應(yīng)中的變化。這使得這些算法對(duì)環(huán)境中瞬時(shí)變化的反應(yīng)相對(duì)較慢。在沒(méi)有外部控制的可能性的情況下,對(duì)關(guān)于源方向做出自主判斷的算法進(jìn)行控制也是有意義的。例如,在大聲的干擾源(又稱為干擾機(jī))的情況中,控制麥克風(fēng)陣列以將源歸類為噪聲源變得更加困難,特別是當(dāng)干擾源的信號(hào)統(tǒng)計(jì)與所需源相似時(shí),例如在通話者爭(zhēng)相發(fā)言的情況下尤為如此。
此外,人臉檢測(cè)和人臉的視頻跟蹤在本領(lǐng)域中是已知的。臉部檢測(cè)對(duì)輸入圖像中的一張臉(或者多張臉)的定位進(jìn)行處理。該過(guò)程包括在沒(méi)有關(guān)于臉部位置的先前知識(shí)可用時(shí)對(duì)整個(gè)圖像進(jìn)行掃描。臉部跟蹤還可以擴(kuò)展至通過(guò)使用時(shí)間相關(guān)性在視頻序列中定位人臉而進(jìn)行的臉部檢測(cè)。使用關(guān)于上一幀中的臉部位置的知識(shí)來(lái)縮小當(dāng)前幀中的搜索范圍,而不是單獨(dú)地在每個(gè)幀中對(duì)臉部進(jìn)行檢測(cè)。
例如,特此通過(guò)引用整體并入的“Face?Detection?In?Color?Images”(R.L.Hsu,M.Abdel-Mottaleb,and?A.K.Jain,IEEE?Transactions?on?Pattern?Analysis?and?Machine?Intelligence,24:696-706,2002)描述了一種基于膚色檢測(cè)的臉部檢測(cè)途徑。用于基于膚色檢測(cè)的臉部檢測(cè)(或跟蹤)的途徑一般對(duì)在圖像中所發(fā)現(xiàn)的膚色像素進(jìn)行確定和分組。接下來(lái),針對(duì)每個(gè)這樣的像素組計(jì)算邊界框(或者最佳擬合橢圓)。選擇核實(shí)特定形狀和尺寸限制的皮膚部分作為候選臉部。最后,基于對(duì)候選臉部?jī)?nèi)的孔洞是由于特征(諸如眼睛和嘴)與膚色不同而造成的這一觀察,在每個(gè)候選臉部?jī)?nèi)搜索這些特征。
另外,特此通過(guò)引用整體并入的“Detecting?Faces?In?Images:A?Survey”(M.Yang,D.J.Kriegman,and?N.Ahuja,IEEE?Transactions?on?Pattern?Analysis?and?Machine?Intelligence,24:34-58,2002)描述了一種基于臉部紋理信息的臉部檢測(cè)途徑。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于諾基亞技術(shù)有限公司,未經(jīng)諾基亞技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310384381.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 音頻/視頻內(nèi)容提供系統(tǒng)和音頻/視頻內(nèi)容提供方法
- 一種多路復(fù)合HDMI音頻視頻信號(hào)的轉(zhuǎn)換裝置
- 一種SDI復(fù)合音頻視頻信號(hào)的轉(zhuǎn)換裝置
- 一種多路復(fù)合音頻視頻信號(hào)的傳輸系統(tǒng)
- 多點(diǎn)音頻視頻通信中遠(yuǎn)程互動(dòng)的方法及設(shè)備
- 一種多源網(wǎng)絡(luò)機(jī)頂盒
- 音頻視頻設(shè)備的控制方法及系統(tǒng)
- 音頻視頻流對(duì)比分析方法及裝置
- 一種高速動(dòng)車用音頻視頻連接器模塊
- 一種基于RFB協(xié)議的音頻視頻的傳輸方法





