[發明專利]一種基于語音和群智感知的人群數量監測方法有效
| 申請號: | 201611014719.6 | 申請日: | 2016-11-15 |
| 公開(公告)號: | CN106782496B | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 陽小龍;洪鷺燕;孫奇福 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/20;G10L17/26;G10L25/90 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 感知 人群 數量 監測 方法 | ||
1.一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:
(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值
(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};
(1.2)、MFCC向量處理
設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量m0,m1,…,mn-1,將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;
其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;
(1.3)、Pitch向量處理
設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;
將保留的K'幀語音的K'個p求均值K'≤K;
再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;
(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量
在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+1維的聯合均值向量
(2)、基于MFCC和Pitch特征參數的性別識別
(2.1)、定義一個人數統計集合R,并初始R為1;以第一個語音片段S1為基準,在語音S中依次挑選兩個語音片段S1、S2,并按照步驟(1)所述特征參數提取方法進行處理;
(2.2)、將MFCC和Pitch特征參數歸一化到同一量級,再對這兩個歸一化值加權求和,如下:
其中,Smfcc表示MFCC向量均值的n維系數的和,Fpitch表示Pitch向量均值表示Smfcc的均值;λmfcc表示男女Smfcc調節參數;λpitch表示男女Pitch分界值;α表示權重調節系數,用于調節MFCC和Pitch歸一化值在加權和中所占的比例;
(2.3)、根據S大小分別識別這兩段語音的性別,如果S>0時,則識別為男性;否則為女性;
(2.4)、判斷這兩語音片段的性別是否相同,如果性別不同,則R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果性別相同,則進行進入步驟(3);
(3)、相同性別下基于聯合均值向量的不同個體區分
(3.1)、在相同性別下,利用余弦相似法計算兩語音片段的聯合均值向量的余弦相似度dcs
其中,P、Q分別代表兩個語音片段的聯合均值向量||表示取模;
(3.2)、相同性別下的不同個體區分
若余弦相似度dcs大于預設的上限閾值θd,即dcs>θd,則判斷這兩段語音片段來自不同的個體,則將R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;若余弦相似度dcs小于預設的下限閾值θs,即則這兩段語音片段來自同一個體,再進入步驟(4);若相似度dcs介于θd和θs之間,即θs≤dcs≤θd,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;
(4)、相同個體的正向聚類
(4.1)、利用Pitch的K-L散度方法計算兩語音片段的K-L散度dkl
其中p、q表示兩個語音片段特征參數Pitch的均值向量;σ表示兩個語音片段特征參數Pitch方差;I表示單位矩陣;
(4.2)、判斷散度dkl是否小于預設的閾值T,如果dkl小于T,將兩語音片段的特征參數進行合并;如果dkl大于等T,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;
其中,兩語音片段的特征參數進行合并的方法為:
設語音片段S1共有幀特征參數,幀特征參數;語音片段S2共有幀特征參數,幀特征參數;
通過正向聚類的特征歸并后,語音片段S1共有幀特征參數,幀特征參數;
正向聚類后的新聯合均值向量為:
(5)、判斷以語音片段S1為基準時,所有語音片段是否都與S1比較完成,如果未比較完成,則返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果比較完成,則以語音片段S2為基準,進入一下輪語音片段的比較,并依次類推,直到所有的語音片段兩兩比對結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611014719.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:惡意電話的識別方法和裝置
- 下一篇:一種基于便攜式智能終端的智能語音降噪算法





