[發(fā)明專利]通話語音的識別方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011632956.5 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112767920A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計)人: | 梁凱峰 | 申請(專利權(quán))人: | 深圳市珍愛捷云信息技術(shù)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L25/87;G10L15/22;G10L15/26 |
| 代理公司: | 深圳市特訊知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44653 | 代理人: | 孟智廣 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通話 語音 識別 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種通話語音的識別方法,其特征在于,包括步驟:
獲取待識別的通話語音;
根據(jù)預(yù)置轉(zhuǎn)化算法,對所述通話語音進行格式標準化處理,得到標準化語音;
根據(jù)預(yù)置語音切割算法,對所述標準化語音進行靜音切割處理,得到響應(yīng)語音;
基于預(yù)置kaldi識別算法,對所述響應(yīng)語音識別處理,得到識別字段,以及將所述識別字段發(fā)送至預(yù)置客戶端IP地址。
2.根據(jù)權(quán)利要求1所述的通話語音的識別方法,其特征在于,所述根據(jù)預(yù)置語音切割算法,對所述標準化語音進行靜音切割處理,得到響應(yīng)語音包括:
根據(jù)預(yù)置并行線程,對所述標準化語音進行切割處理,得到切割語音集,其中,所述并行線程包括:并行序號、單線程處理排序號;
對所述切割語音集中的每個切割語音進行靜音片段的識別標記處理,得到每個所述切割語音對應(yīng)靜音標記片段;
對每個所述切割語音中對應(yīng)的靜音標記片段進行剔除處理,得到基礎(chǔ)響應(yīng)語音集;
根據(jù)所述并行序號和所述單線程處理排序號,對所述基礎(chǔ)響應(yīng)語音集進行組合拼接處理,得到響應(yīng)語音。
3.根據(jù)權(quán)利要求2所述的通話語音的識別方法,其特征在于,所述對所述切割語音集中的每個切割語音進行靜音片段的識別標記處理,得到每個所述切割語音對應(yīng)靜音標記片段包括:
讀取所述切割語音集中每個切割語音的短時平均能量分布;
逐幀判斷所述短時平均能量分布是否大于預(yù)置動態(tài)閾值;
若不大于,則將所述短時平均能量分布中對應(yīng)音頻幀確定為靜音幀,以及對所述短時平均能量分布中所有的靜音幀進行組合過濾處理,生成靜音標記片段。
4.根據(jù)權(quán)利要求3所述的通話語音的識別方法,其特征在于,在所述對所述切割語音集中的每個切割語音進行靜音片段的識別標記處理,得到每個切割語音對應(yīng)靜音標記片段之后,在所述對每個所述切割語音中對應(yīng)的靜音標記片段進行剔除處理,得到基礎(chǔ)響應(yīng)語音集之前,還包括:
讀取每個靜音標記片段兩端音頻幀的過零率;
判斷所述過零率是否超過預(yù)置過零率閾值;
若超過,則將所述過零率對應(yīng)的音頻幀移出靜音標記片段。
5.根據(jù)權(quán)利要求3所述的通話語音的識別方法,其特征在于,所述逐幀判斷所述短時平均能量分布是否大于預(yù)置動態(tài)閾值包括:
讀取所述短時平均能量中每幀的短時平均能量Eq;
根據(jù)動態(tài)閾值算法計算出每幀對應(yīng)的動態(tài)閾值R(Eq),其中,R0、R1、E0、E1為算法參數(shù),E為短時平均能量代入值;
判斷所述短時平均能量Eq是否大于所述動態(tài)閾值R(Eq)。
6.根據(jù)權(quán)利要求3所述的通話語音的識別方法,其特征在于,所述將對所述短時平均能量分布中所有的靜音幀進行組合過濾處理,生成靜音標記片段包括:
將所述短時平均能量分布中所有相鄰的靜音幀組合,生成所述短時平均能量分布對應(yīng)的靜音片段;
判斷所述靜音片段的時間是否大于預(yù)置停頓時間閾值;
若大于,則將所述靜音片段確定為靜音標記片段。
7.根據(jù)權(quán)利要求1所述的通話語音的識別方法,其特征在于,所述根據(jù)預(yù)置轉(zhuǎn)化算法,對所述通話語音進行格式標準化處理,得到標準化語音包括:
判斷所述通話語音是否為WAVE格式;
若是WAVE格式,則將所述通話語音確定為標準化語音;
若不是WAVE格式,則根據(jù)預(yù)置轉(zhuǎn)化算法,將所述通話語音轉(zhuǎn)化為WAVE格式,得到標準化語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市珍愛捷云信息技術(shù)有限公司,未經(jīng)深圳市珍愛捷云信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011632956.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





