[發(fā)明專利]語音處理裝置、方法和程序無效
| 申請(qǐng)?zhí)枺?/td> | 201310018393.4 | 申請(qǐng)日: | 2013-01-18 |
| 公開(公告)號(hào): | CN103226952A | 公開(公告)日: | 2013-07-31 |
| 發(fā)明(設(shè)計(jì))人: | 本間弘幸;知念徹 | 申請(qǐng)(專利權(quán))人: | 索尼公司 |
| 主分類號(hào): | G10L25/03 | 分類號(hào): | G10L25/03;G10L25/48 |
| 代理公司: | 中國國際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所 11038 | 代理人: | 王莉莉 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 處理 裝置 方法 程序 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理裝置、方法和程序,并且更具體地,涉及可以更容易得到合適水平的語音的語音處理裝置、方法和程序。
背景技術(shù)
在通過使用諸如IC(集成電路)記錄器的記錄裝置來記錄對(duì)話、音樂演奏等的情況下,重要的是正確地設(shè)置記錄靈敏度,使得以合適等級(jí)的水平記錄所采集語音的輸入語音信號(hào)。
例如,在相對(duì)大的會(huì)議室中進(jìn)行的會(huì)議中記錄對(duì)話的情況下,如果記錄裝置的記錄靈敏度被設(shè)置得低,則將存在以下情況:語音將被以低水平記錄,以致于遠(yuǎn)處發(fā)言者的談話將很難能夠被聽到。
另一方面,在麥克風(fēng)靠近某人的嘴部并且他們的口述被保留作為備忘錄的情況下,如果記錄裝置的記錄靈敏度被設(shè)置得高,則將輸入超過可以被記錄的上限水平的信號(hào)。在這種情況下,將在被記錄的語音中出現(xiàn)聲音的失真,并且這種失真將變成刺耳的噪聲。
這樣,為了避免以不合適的水平記錄語音,通常,記錄裝置中設(shè)置的記錄靈敏度被粗略分成3級(jí)水平,并且使用自動(dòng)地將信號(hào)水平保持在恒定水平的信號(hào)處理技術(shù)。這種信號(hào)處理技術(shù)被稱為ALC(自動(dòng)水平控制)和AGC(自動(dòng)增益控制)。
例如,如圖1中所示,記錄裝置中的記錄靈敏度被分成高、中和低三級(jí),并且針對(duì)這各個(gè)記錄靈敏度,將+30dB、+15dB和0dB的值分配作為放大器的放大因子。
另外,如圖2中所示,例如,總體記錄裝置的輸入系統(tǒng)包括主控制裝置11、放大器12、ADC(模數(shù)轉(zhuǎn)換器)12和ALC處理部分14。
對(duì)于這種記錄裝置,當(dāng)用戶指定記錄裝置的記錄靈敏度的設(shè)置時(shí),主控制裝置11將已經(jīng)通過用戶所指定的記錄靈敏度確定的放大比例設(shè)置為放大器12中的放大因子。
然后,采集的語音信號(hào)被按照放大器12中設(shè)置的放大因子放大,被ADC13數(shù)字化,此后通過ALC處理部分14控制信號(hào)水平。然后,從ALC處理部分14輸出具有受控信號(hào)水平的信號(hào)作為輸出語音信號(hào),并且輸出語音信號(hào)被編碼并且在此后被記錄。
例如,圖3的折線IC11示出的信號(hào)被輸入到ALC處理部分14,并且對(duì)這個(gè)信號(hào)的信號(hào)水平執(zhí)行控制。然后,從ALC處理部分14輸出作為這個(gè)步驟結(jié)果得到的折線OC11所示的信號(hào)作為最終輸出語音信號(hào)。注意的是,在圖3中,水平軸表示時(shí)間并且垂直軸表示信號(hào)水平。另外,圖3中的虛線示出最大輸入水平,即被獲取作為信號(hào)水平的值中的最大值。
折線IC11表示的信號(hào)是輸入到記錄裝置的麥克風(fēng)、被放大器12放大并且此后被ADC13數(shù)字化的信號(hào)。因?yàn)樗涗浶盘?hào)之中的大于最大輸入水平(用虛線表示)的水平的一部分被記錄于消波狀態(tài),所以在再現(xiàn)期間在信號(hào)的這個(gè)部分中將出現(xiàn)聲音失真噪聲。
因此,針對(duì)輸入折線IC11表示的信號(hào),在記錄裝置中執(zhí)行增益調(diào)節(jié),并且作為這個(gè)步驟的結(jié)果得到的并且由折線OC11表示的信號(hào)被作為輸出信號(hào)輸出。由折線OC11表示的這個(gè)信號(hào)的水平變得總是小于最大的輸入水平,并且理解的是,執(zhí)行增益調(diào)節(jié),使得輸出語音信號(hào)將是合適水平的信號(hào)。
在增益調(diào)節(jié)期間,通過ALC處理部分14實(shí)時(shí)測量信號(hào)水平,并且在信號(hào)水平接近最大輸入水平的情況下,降低增益,使得信號(hào)的水平不超過最大輸入水平。然后,在信號(hào)沒有超過最大輸入水平的情況下,增益返回到1.0。
如上所述,執(zhí)行設(shè)置記錄靈敏度的步驟和由ALC處理部分14進(jìn)行的增益調(diào)節(jié),以避免出現(xiàn)聲音失真并且防止所記錄的語音太小,以致聽不到。然而,存在以下情況:由于記錄靈敏度還沒被合適設(shè)置,以及由于通過ALC(增益調(diào)節(jié))得到的聲音因外部噪聲等的影響是不穩(wěn)定的聲音,導(dǎo)致所記錄的語音將在再現(xiàn)期間難以聽到。
另一方面,在日本專利No.3367592中提出了一種技術(shù),例如,該技術(shù)涉及一種自動(dòng)增益調(diào)節(jié)裝置,該裝置用于盡可能減少外部噪聲的影響并且用于以合適水平記錄語音。
在這種技術(shù)中,在一定時(shí)間幀內(nèi)計(jì)算功率譜的自動(dòng)校正和傾斜,以正確地區(qū)分語音部分,并且在功率譜的自動(dòng)校正或傾斜小于閾值的情況下,這個(gè)時(shí)間幀被視為是不穩(wěn)定的。通過在計(jì)算輸入信號(hào)的水平時(shí)排除這種不穩(wěn)定的時(shí)間幀,也就是說,假設(shè)這個(gè)時(shí)間幀不是語音部分,將語音控制在合適水平。
發(fā)明內(nèi)容
然而,在上述技術(shù)中,在容易辨別語音和噪聲的同時(shí)麥克風(fēng)靠近聲源如電話的情況下,在記錄裝置被置于大房間中并且相當(dāng)距離處的揚(yáng)聲器發(fā)聲的情況下,輸入語音信號(hào)的SN比(信噪比)將是差的,并且不能夠準(zhǔn)確地檢測到語音部分。因此,存在不能夠得到合適水平的語音信號(hào)作為所記錄的語音信號(hào)的情況。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼公司,未經(jīng)索尼公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310018393.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





