[發明專利]一種基于語音和群智感知的人群數量監測方法有效
| 申請號: | 201611014719.6 | 申請日: | 2016-11-15 |
| 公開(公告)號: | CN106782496B | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 陽小龍;洪鷺燕;孫奇福 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/20;G10L17/26;G10L25/90 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 感知 人群 數量 監測 方法 | ||
本發明公開了一種基于語音和群智感知的人群數量監測方法,通過對收集的語音片段取MFCC和Pitch等語音特征參數,再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計,最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足,實現了人群規模監測,也提高了人群規模統計的快速性、準確性。
技術領域
本發明屬于群智感知技術領域,更為具體地講,涉及一種基于語音和群智感知的人群數量監測方法。
背景技術
智能移動設備的快速發展為群智感知的應用奠定了基礎。群智感知是指普通用戶的移動設備(手機、平板電腦等)作為基本感知單元,通過移動互聯網進行有意識或無意識的協作,實現感知任務分發與感知數據收集,完成大規模的、復雜的社會感知任務。群智感知在社會感知的應用方面有很多。例如,Ubigreen項目跟蹤用戶活動對環境帶來的影響,鼓勵用戶綠色出行;BikeNet項目采集自行車用戶的騎行數據,讓參與者分享最喜愛的騎行路線與環境狀況;im2GPS項目利用互聯網數百萬計的GPS標記圖片,估計用戶的地理位置信息。
以語音為載體的群智感知,可廣泛應用于城市熱點感知、人群監測等。例如:通過人群監測,可以判斷:一家餐館是否顧客盈門?演講中演講者與聽眾的互動是否熱烈?某個人在日常生活中是否社交活動非常活躍?該應用是利用用戶手機自帶的錄音功能收集周邊講話人的語音數據,對其分析處理后計算出說話人數。
然而,目前語音群智感知應用的人群統計準確率不高,其主要原因在于性別誤判和相同性別下不同個體的區分度不夠。以典型的Crowd++系統為例,它在性別識別中只是使用基頻(Pitch)閾值法區分男女,忽略了中性人群Pitch重疊區域的處理,性別誤判導致了統計誤差累加。更重要的是,在相同性別下,它采用的基于MFCC的距離度量方法根本不能有效區分不同個體。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于語音和群智感知的人群數量監測方法,通過Pitch和MFCC聯合特征參數進行性別識別,完成人數統計,實現了人群規模統計的快速性和準確性。
為實現上述發明目的,本發一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:
(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值
(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};
(1.2)、MFCC向量處理
設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1),將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;
其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;
(1.3)、Pitch向量處理
設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;
將保留的K'(K'≤K)幀語音的K'個p求均值
再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611014719.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:惡意電話的識別方法和裝置
- 下一篇:一種基于便攜式智能終端的智能語音降噪算法





