[發明專利]一種基于語音和群智感知的人群數量監測方法有效

申請號：	201611014719.6	申請日：	2016-11-15
公開（公告）號：	CN106782496B	公開（公告）日：	2019-08-20
發明（設計）人：	陽小龍;洪鷺燕;孫奇福	申請（專利權）人：	北京科技大學
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/20;G10L17/26;G10L25/90
代理公司：	成都行之專利代理事務所(普通合伙) 51220	代理人：	溫利平
地址：	100083***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音感知人群數量監測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語音和群智感知的人群數量監測方法，其特征在于，包括以下步驟：

(1)、提取MFCC和Pitch特征參數，并將這兩個特征參數融合成聯合均值

(1.1)、將收集的語音S切分為t秒的若干個片段，S＝{S₁,S₂,...}；

(1.2)、MFCC向量處理

設第k個語音片段S_k中包含K幀語音，從每幀語音中提取n維的MFCC向量m₀,m₁,…,m_n-1，將K個MFCC向量求均值再將作為語音片段S_k的MFCC特征參數；

其中，m_ij表示語音片段S_k的第i幀MFCC向量的第j維MFCC系數；

(1.3)、Pitch向量處理

設每幀語音中提取的Pitch值為p，語音片段S_k中共計提取出K個p，比較每個p值是否在50～450Hz之間，如果在則保留該幀語音，如果不在則刪除該幀語音；

將保留的K'幀語音的K'個p求均值K'≤K；

再比較是否在50～450Hz之間，如果在，則保留該語音片段S_k，并將作為語音片段S_k的Pitch特征參數；如果不在，則刪除該語音片段S_k；

(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量

在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+1維的聯合均值向量

(2)、基于MFCC和Pitch特征參數的性別識別

(2.1)、定義一個人數統計集合R，并初始R為1；以第一個語音片段S₁為基準，在語音S中依次挑選兩個語音片段S₁、S₂，并按照步驟(1)所述特征參數提取方法進行處理；

(2.2)、將MFCC和Pitch特征參數歸一化到同一量級，再對這兩個歸一化值加權求和，如下：

其中，S_mfcc表示MFCC向量均值的n維系數的和，F_pitch表示Pitch向量均值表示S_mfcc的均值；λ_mfcc表示男女S_mfcc調節參數；λ_pitch表示男女Pitch分界值；α表示權重調節系數，用于調節MFCC和Pitch歸一化值在加權和中所占的比例；

(2.3)、根據S大小分別識別這兩段語音的性別，如果S>0時，則識別為男性；否則為女性；

(2.4)、判斷這兩語音片段的性別是否相同，如果性別不同，則R+1，并返回步驟(2.1)，重新挑選下一個語音片段與S₁比較；如果性別相同，則進行進入步驟(3)；

(3)、相同性別下基于聯合均值向量的不同個體區分

(3.1)、在相同性別下，利用余弦相似法計算兩語音片段的聯合均值向量的余弦相似度d_cs

其中，P、Q分別代表兩個語音片段的聯合均值向量||表示取模；

(3.2)、相同性別下的不同個體區分

若余弦相似度d_cs大于預設的上限閾值θ_d，即d_cs＞θ_d，則判斷這兩段語音片段來自不同的個體，則將R+1，并返回步驟(2.1)，重新挑選下一個語音片段與S₁比較；若余弦相似度d_cs小于預設的下限閾值θ_s，即則這兩段語音片段來自同一個體，再進入步驟(4)；若相似度d_cs介于θ_d和θ_s之間，即θ_s≤d_cs≤θ_d，則R不變，并返回步驟(2.1)，重新挑選下一個語音片段與S₁比較；