[發(fā)明專利]語音端點檢測方法和裝置有效
| 申請?zhí)枺?/td> | 201410779544.2 | 申請日: | 2014-12-15 |
| 公開(公告)號: | CN104409080B | 公開(公告)日: | 2018-09-18 |
| 發(fā)明(設計)人: | 劉粉香 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L15/05;G10L15/06 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 吳貴明;張永明 |
| 地址: | 100086 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音端點檢測 預設 方法和裝置 語音訓練 語音 獲取目標 目標環(huán)境 音頻片段 語音片段 語音數(shù)據(jù) 預先生成 起始點 噪音 查找 | ||
1.一種語音端點檢測方法,其特征在于,包括:
獲取目標環(huán)境下的待測音頻;
利用預先生成的語音訓練模型對所述待測音頻中的音頻片段進行標記,將所述待測音頻中的語音片段標記為第一預設標識,其中,所述語音訓練模型為對所述目標環(huán)境的語音數(shù)據(jù)進行訓練得到的模型;以及
從標記的待測音頻中查找具有所述第一預設標識的整段音頻,其中,所述整段音頻為一整段標記有所述第一預設標識的語音;
將所述具有所述第一預設標識的整段音頻的作為一段語音,所述具有所述第一預設標識的整段音頻的起始點和結束點作為所述一段語音的端點;
其中,在獲取目標環(huán)境下的待測音頻之前,所述語音端點檢測方法還包括:采集所述目標環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓練集數(shù)據(jù);以預設單位時間對所述語音數(shù)據(jù)進行劃分,得到多個音頻段;依次判斷所述多個音頻段中是否包含有語音;將包含有語音的音頻段標記為所述第一預設標記,并將不包含有語音的音頻段標記為第二預設標記;以及從標記有所述第一預設標記和所述第二預設標記的音頻段中提取樣本,利用提取的樣本訓練得到所述語音訓練模型。
2.根據(jù)權利要求1所述的語音端點檢測方法,其特征在于,從標記有所述第一預設標記和所述第二預設標記的音頻段中提取樣本,利用提取的樣本訓練得到所述語音訓練模型包括:
從標記有所述第一預設標記的音頻段中提取多個預設時間長度的音頻段,作為正樣本;
從標記有所述第二預設標記的音頻段中提取多個所述預設時間長度的音頻段,作為負樣本;
使用支持向量機對所述正樣本和所述負樣本進行訓練,得到所述語音訓練模型。
3.根據(jù)權利要求2所述的語音端點檢測方法,其特征在于,使用支持向量機對所述正樣本和所述負樣本進行訓練,得到所述語音訓練模型包括:
使用所述支持向量機并添加高斯核函數(shù)和松弛因子對所述正樣本和所述負樣本進行訓練,得到所述語音訓練模型。
4.根據(jù)權利要求1所述的語音端點檢測方法,其特征在于,利用預先生成的語音訓練模型對所述待測音頻中的音頻片段進行標記包括:
按照所述預設單位時間對所述待測音頻進行劃分,得到多個待測音頻段;
利用所述語音訓練模型對所述多個待測音頻段進行標記,將包含有語音的待測音頻段標記為所述第一預設標識,將不包含有語音的待測音頻段標記為所述第二預設標識。
5.一種語音端點檢測裝置,其特征在于,包括:
獲取單元,用于獲取目標環(huán)境下的待測音頻;
第一標記單元,用于利用預先生成的語音訓練模型對所述待測音頻中的音頻片段進行標記,將所述待測音頻中的語音片段標記為第一預設標識,其中,所述語音訓練模型為對所述目標環(huán)境的語音數(shù)據(jù)進行訓練得到的模型;以及
查找單元,用于從標記的待測音頻中查找具有所述第一預設標識的整段音頻,其中,所述整段音頻為一整段標記有所述第一預設標識的語音;
確定單元,用于將所述具有所述第一預設標識的整段音頻的作為一段語音,所述具有所述第一預設標識的整段音頻的起始點和結束點作為所述一段語音的端點;
其中,所述語音端點檢測裝置還包括:采集單元,用于在獲取目標環(huán)境下的待測音頻之前,采集所述目標環(huán)境的語音數(shù)據(jù),將所述語音數(shù)據(jù)作為語音訓練集數(shù)據(jù);劃分單元,用于以預設單位時間對所述語音數(shù)據(jù)進行劃分,得到多個音頻段;判斷單元,用于依次判斷所述多個音頻段中是否包含有語音;第二標記單元,用于將包含有語音的音頻段標記為所述第一預設標記,并將不包含有語音的音頻段標記為第二預設標記;以及訓練單元,用于從標記有所述第一預設標記和所述第二預設標記的音頻段中提取樣本,利用提取的樣本訓練得到所述語音訓練模型。
6.根據(jù)權利要求5所述的語音端點檢測裝置,其特征在于,所述訓練單元包括:
第一提取模塊,用于從標記有所述第一預設標記的音頻段中提取多個預設時間長度的音頻段,作為正樣本;
第二提取模塊,用于從標記有所述第二預設標記的音頻段中提取多個所述預設時間長度的音頻段,作為負樣本;
訓練模塊,用于使用支持向量機對所述正樣本和所述負樣本進行訓練,得到所述語音訓練模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410779544.2/1.html,轉載請聲明來源鉆瓜專利網。





