[發明專利]一種基于語音和群智感知的人群數量監測方法有效

申請號：	201611014719.6	申請日：	2016-11-15
公開（公告）號：	CN106782496B	公開（公告）日：	2019-08-20
發明（設計）人：	陽小龍;洪鷺燕;孫奇福	申請（專利權）人：	北京科技大學
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/20;G10L17/26;G10L25/90
代理公司：	成都行之專利代理事務所(普通合伙) 51220	代理人：	溫利平
地址：	100083***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音感知人群數量監測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于語音和群智感知的人群數量監測方法，通過對收集的語音片段取MFCC和Pitch等語音特征參數，再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計，最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足，實現了人群規模監測，也提高了人群規模統計的快速性、準確性。

技術領域

本發明屬于群智感知技術領域，更為具體地講，涉及一種基于語音和群智感知的人群數量監測方法。

背景技術

智能移動設備的快速發展為群智感知的應用奠定了基礎。群智感知是指普通用戶的移動設備(手機、平板電腦等)作為基本感知單元，通過移動互聯網進行有意識或無意識的協作，實現感知任務分發與感知數據收集，完成大規模的、復雜的社會感知任務。群智感知在社會感知的應用方面有很多。例如，Ubigreen項目跟蹤用戶活動對環境帶來的影響，鼓勵用戶綠色出行；BikeNet項目采集自行車用戶的騎行數據，讓參與者分享最喜愛的騎行路線與環境狀況；im2GPS項目利用互聯網數百萬計的GPS標記圖片，估計用戶的地理位置信息。

以語音為載體的群智感知，可廣泛應用于城市熱點感知、人群監測等。例如：通過人群監測，可以判斷：一家餐館是否顧客盈門？演講中演講者與聽眾的互動是否熱烈？某個人在日常生活中是否社交活動非常活躍？該應用是利用用戶手機自帶的錄音功能收集周邊講話人的語音數據，對其分析處理后計算出說話人數。

然而，目前語音群智感知應用的人群統計準確率不高，其主要原因在于性別誤判和相同性別下不同個體的區分度不夠。以典型的Crowd++系統為例，它在性別識別中只是使用基頻(Pitch)閾值法區分男女，忽略了中性人群Pitch重疊區域的處理，性別誤判導致了統計誤差累加。更重要的是，在相同性別下，它采用的基于MFCC的距離度量方法根本不能有效區分不同個體。

發明內容

本發明的目的在于克服現有技術的不足，提供一種基于語音和群智感知的人群數量監測方法，通過Pitch和MFCC聯合特征參數進行性別識別，完成人數統計，實現了人群規模統計的快速性和準確性。

為實現上述發明目的，本發一種基于語音和群智感知的人群數量監測方法，其特征在于，包括以下步驟：

(1)、提取MFCC和Pitch特征參數，并將這兩個特征參數融合成聯合均值

(1.1)、將收集的語音S切分為t秒的若干個片段，S＝{S₁,S₂,...}；

(1.2)、MFCC向量處理

設第k個語音片段S_k中包含K幀語音，從每幀語音中提取n維的MFCC向量(m₀,m₁,...,m_n-1)，將K個MFCC向量求均值再將作為語音片段S_k的MFCC特征參數；

其中，m_ij表示語音片段S_k的第i幀MFCC向量的第j維MFCC系數；

(1.3)、Pitch向量處理

設每幀語音中提取的Pitch值為p，語音片段S_k中共計提取出K個p，比較每個p值是否在50～450Hz之間，如果在則保留該幀語音，如果不在則刪除該幀語音；

將保留的K'(K'≤K)幀語音的K'個p求均值

再比較是否在50～450Hz之間，如果在，則保留該語音片段S_k，并將作為語音片段S_k的Pitch特征參數；如果不在，則刪除該語音片段S_k；