[發明專利]針對實時語音流的咳嗽及打噴嚏識別方法有效
| 申請號: | 202010213863.2 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN111524537B | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 孫寶石 | 申請(專利權)人: | 蘇州數言信息技術有限公司 |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/51;G10L25/30 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 殷海霞 |
| 地址: | 215000 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 實時 語音 咳嗽 打噴嚏 識別 方法 | ||
1.一種針對實時語音流的雙域特征化及隊列加速的咳嗽及打噴嚏識別方法,其特征在于,包括:
連續采集語音信號,將采集的語音數據進行分幀;
對語音數據幀進行端點檢測,以定位候選目標語音的起點幀;端點檢測采用三門限法,即:
(1)此幀采樣的平均能量大于門限1,且
(2)此幀采樣過零率(幀采樣值大于零的百分比)大于門限2,且
(3)此幀與前一幀的平均能量差分(兩幀平均能量差的絕對值)大于門限如果此幀滿足上述三門限,則其幀靜音標記(Frame?Mute?Flag,FMF)記為1(真),否則此幀的FMF記為0(假);
更新“識別過程激活標記(Recognition?Activated?Flag,RAF)”,RAF初始值為0(未激活):RAF=RAF|FMF
對RAF進行判斷,如果RAF為假,表示識別過程尚未被激活,則直接丟棄當前幀,并跳轉到開始繼續語音采樣;
如果RAF為真,表示識別過程已激活,則對當前幀進行特征化處理,得到一組20個特征值的幀特征向量;
將幀特征向量加入特征向量隊列的隊尾;
如果特征向量隊列長度達到可識別長度(RecoLen),則將特征向量隊列(RecoLen*20的特征矩陣)代入事先訓練好的機器學習模型進行識別;否則,繼續語音采樣;
可識別長度RecoLen是機器學習模型二維輸入樣本的一個維度,表示一條輸入樣本包括多少個數據幀;RecoLen的取值在20幀到32幀之間,即對應于約1.25-2秒的語音數據,這個長度的語音基本上正好是一次咳嗽或打噴嚏的時間窗口;
如果識別結果的置信度(CL)超過系統設定的識別門限值,則認為有效檢測到了一次咳嗽或打噴嚏,需進行計數、輸出識別結果,并清空特征向量隊列、將RAF置為0;然后跳轉到開始,開始新的識別過程;
如果識別結果的置信度(CL)沒有超過系統設定的識別門限值,則認為無法確認有效檢測到了咳嗽或打噴嚏,但需要根據CL的具體值,進行特征向量隊列加速處理;
加速處理完成后開始新的識別過程;
其中,進行特征向量隊列加速處理,具體包括:
(1)加速1:從特征向量隊列中移除最前面(100%-CL)數量的幀,例如,假定RecoLen為20,若本次識別得到的CL為60%,則需要把前40%的幀,即8個幀從隊列中剔除;
(2)加速2:在特征向量隊列剩余幀中找到第一個FMF為1(真)的幀,丟棄其前面的所有幀;如果沒找到FMF為1(真)的幀,則清空特征向量隊列、并將RAF置為0;
其中,語音數據幀特征化處理流程,具體包括:
對輸入語音數據幀分別進行時域特征化和頻域特征化;
時域特征化:根據咳嗽和打噴嚏聲音的瞬間振幅變化的特點,計算三個特征值,包括:
(1)幀的采樣波動值=最大采樣值-最小采樣值;
(2)當前幀與前一幀的能量差分=abs(當前幀的采樣平均值–前一幀的采樣平均值),注:abs為絕對值函數;
(3)幀分片的能量方差,代表幀內的能量波動;
頻域特征化,包括兩部分;第一部分是語音信號頻域分析通用的梅爾頻率倒譜系數(Mel-scale?Frequency?Cepstral?Coefficient,MFCC),主要由快速傅里葉變換(FFT)、梅爾頻率濾波器組和離散余弦變換(DCT)三部分組成;
頻域特征化的第二部分是取第一部分的16個特征值,用標準方差公式計算頻段能量方差,可再得到一個特征值。
2.如權利要求1所述的針對實時語音流的雙域特征化及隊列加速的咳嗽及打噴嚏識別方法,其特征在于,上述整個處理流程為方法的“運行模式”,此外還有“訓練模式”和“采集模式”共三種工作模式,工作模式通過系統參數控制;
如果工作在“訓練模式”下,需要在幀特征向量入隊的同時將幀特征向量上報給服務器或云平臺;
如果工作在“采集模式”下,還需要將分幀語音數據上傳給服務器或云平臺。
3.如權利要求1所述的針對實時語音流的雙域特征化及隊列加速的咳嗽及打噴嚏識別方法,其特征在于,門限1針對絕對靜音過濾,門限2針對相對靜音過濾,門限3則針對咳嗽及打噴嚏能量突變的特點,過濾掉較平滑的正常語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州數言信息技術有限公司,未經蘇州數言信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010213863.2/1.html,轉載請聲明來源鉆瓜專利網。





