[發明專利]一種電話錄音數據的處理方法及系統有效
| 申請號: | 201210282728.9 | 申請日: | 2012-08-09 |
| 公開(公告)號: | CN103578470B | 公開(公告)日: | 2019-10-18 |
| 發明(設計)人: | 高建清;王智國;何婷婷;胡國平;胡郁;劉慶峰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/20;G10L15/02 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電話錄音 數據 處理 方法 系統 | ||
本發明實施例公開了一種電話錄音數據的處理方法,包括:對輸入的源錄音數據進行端點檢測,獲取有聲數據;判斷有聲數據是否為無效數據,若是,則舍棄,否則,確定有聲數據為語音數據;判斷語音數據是否為異常數據,若是,則舍棄,否則,確定語音數據為有效語音數據。本發明公開的電話錄音數據的處理方法,濾除了具有較高能量的噪聲信號和異常語音信號,保證進入后續語音識別系統的數據的有效性,從而降低了后續語音識別過程的錯誤率,提高了語音識別的效率,同時通過端點檢測確定有聲數據的步驟,減小了運算量。本發明實施例還公開了一種電話錄音數據的處理系統。
技術領域
本發明屬于語音識別技術領域,尤其涉及一種電話錄音數據的處理方法及系統。
背景技術
隨著人們對信息獲取移動性需求的不斷增加以及電話網絡的日益普及,電話語音服務正日益滲透到人們生活的方方面面。同時,針對各種電話語音服務的錄音數據后續處理,例如信息挖掘、統計分析、服務質量抽查、關鍵詞檢索等需求也越來越迫切。面對海量的電話錄音數據進行人工處理顯然是不切實際的,這些需求通常首先要通過自動語音識別模塊將語音數據轉化為文字數據,然后再使用文本挖掘、檢索技術進行處理。如果不對這些電話錄音數據進行篩選,直接交給自動語音識別模塊來處理,將極大增加語音識別的錯誤率,進而嚴重降低各種后續處理模塊的有效性。因此,在自動語音識別模塊接觸源錄音數據之前,要對源錄音數據進行處理,增加一個無效語音數據的過濾裝置。
公開號為CN1949364A的專利申請公開了一種檢測輸入語音信號可甄別度的系統和方法,將輸入信號的信噪比、輸入信號為語音的幾率以及系統處理輸入信號的可靠度作為語音質量的衡量準則,符合該衡量準則的語音信號被送入后續的語音識別系統進行后續處理。
但是,經過上述系統處理后的語音數據進入自動語音識別系統后,自動語音識別系統仍會出現較高的錯誤率,并且識別效率較低。如何提高自動語音識別系統的識別效率、降低其錯誤率是本領域技術人員亟待解決的問題。
發明內容
有鑒于此,本發明的目的在于提供一種電話錄音數據的處理方法,可以將源錄音數據中具有較高能量的噪聲信號和異常語音信號濾除,從而降低后續語音識別的錯誤率、提高語音識別的效率。本發明還公開了一種電話錄音數據的處理系統。
為實現上述目的,本發明提供如下技術方案:
一種電話錄音數據的處理方法,包括:
對輸入的源錄音數據進行端點檢測,獲取有聲數據;
判斷所述有聲數據是否為無效數據,若是,則舍棄,否則,確定所述有聲數據為語音數據;
判斷所述語音數據是否為異常數據,若是,則舍棄,否則,確定所述語音數據為有效語音數據;
所述無效數據包括撥號音、振鈴音、傳真音、靜音、掛機音和彩鈴音,所述異常數據包括音量過大的語音數據、音量過小的語音數據以及噪音干擾過大的語音數據。
優選的,在上述方法中,判斷所述有聲數據是否為無效數據的步驟,包括:
將有聲數據中的每一幀依次作為當前幀,判斷所述當前幀是否為噪音幀;
確定所述有聲數據中噪音幀的總量;
判斷所述噪音幀的總量與所述有聲數據中數據幀總量之間的比值是否達到第一閾值或判斷所述噪音幀的總量是否達到第二閾值,若所述比值達到第一閾值或所述噪音幀的總量達到第二閾值,則確定所述有聲數據為無效數據;否則,確定所述有聲數據為語音數據。
優選的,在上述方法中,判斷所述有聲數據是否為無效數據的步驟,包括:
步驟S21:初始化所述有聲數據中噪音幀的數量,確定所述有聲數據中的第一幀為當前幀;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210282728.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





