[發(fā)明專利]移動終端語音分析系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110133543.0 | 申請日: | 2021-02-01 |
| 公開(公告)號: | CN112750426B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 郭昆;陳文舉;吉鵬云;陳羽中;張鵬;李釩效 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/22 |
| 代理公司: | 福州元創(chuàng)專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移動 終端 語音 分析 系統(tǒng) | ||
本發(fā)明涉及一種移動終端語音分析系統(tǒng)。包括:數(shù)據(jù)預處理模塊,對輸入的語音信號進行預處理,轉(zhuǎn)換成RGB圖像;語音識別模塊,對RGB圖像大小進行調(diào)整,輸入神經(jīng)網(wǎng)絡進行訓練,得到神經(jīng)網(wǎng)絡模型;待識別的加速度計數(shù)據(jù)經(jīng)過預處理和圖像大小調(diào)整后輸入訓練后的神經(jīng)網(wǎng)絡模型,輸出預測結果;語音重構模塊,實現(xiàn)從加速度信號重構出語音信號的功能;對于輸入的加速度信號頻譜圖,重構模塊內(nèi)部基于自動編碼器設計的神經(jīng)網(wǎng)絡會先對其進行處理,經(jīng)過訓練的神經(jīng)網(wǎng)絡模型,輸出加速度信號對應的語音信號的頻譜圖,再使用Griffin?Lim算法從語音信號頻譜圖還原出語音信號,達到從加速度信號重構出語音信號的目標。本發(fā)明能夠?qū)崿F(xiàn)完整的從加速度信號重構出語音信號的功能。
技術領域
本發(fā)明涉及一種移動終端語音分析系統(tǒng)。
背景技術
基于運動傳感器的語音識別吸引了許多安全領域研究人員的關注。Hwang等率先提出利用加速度計來進行智能設備之間無線通信的思想,在固定表面上放置兩部智能終端,發(fā)送端發(fā)送消息時產(chǎn)生的振動通過固體表面?zhèn)鞑ィ邮斩朔治鲎陨淼募铀俣扔嫈?shù)據(jù)以解碼傳入的信息。雖然通信能夠進行,但持續(xù)時間太短且需要為不同場景設置對應的加速計閾值。Michalevsky等利用智能手機中的陀螺儀拾取放置在同一張桌子上的獨立揚聲器引起表面的震動,通過分析捕獲的震動識別揚聲器發(fā)出的聲音。由于陀螺儀對表面震動的靈敏度較低,并且采樣率有限,因此識別成功率很低,區(qū)分單個數(shù)字發(fā)音的準確性僅為26%。Zhang等為了解決語音控制中的能量效率問題,設計了可在智能手機上運行的AccelWord,利用加速度計作為“麥克風”來檢測用戶所說的熱門詞匯,在移動場景下可以得到比陀螺儀更高的準確率,但僅限于交談和行走兩種模式下的熱門詞匯的識別,無法做到原始語音的還原。Anand等研究了通過固體表面或空氣檢測語音信號的問題,指出當揚聲器達到足夠的功率且沿固體傳播語音時,引起的傳感器震動最強烈,最有利于語音識別。Anand等進一步提出利用加速計采集由手機內(nèi)置聽筒發(fā)出的語音造成的振蕩來進行語音識別與語音重構,不但具有更強的隱蔽性,準確率也更高,但其識別方法只能判斷出說話者的性別及身份,而其重構方法只能判斷出是否包含關鍵詞,還不能還原出原始語音。Ba等提出基于智能手機的加速計實現(xiàn)手機語音監(jiān)聽的方法,指出現(xiàn)有手機加速計的采樣頻率已經(jīng)能夠采集到成人語音的完整頻率,在此基礎上采用基于深度神經(jīng)網(wǎng)絡的算法能夠較好識別出語音中的數(shù)字和字母,并一定程度上還原出原始語音。但其top 1的識別和還原準確率還不高,且只能還原簡單的單個字符的語音。以上研究提出了很多利用移動終端的傳感器進行語音分析的方法,但由于語音震蕩引起傳感器數(shù)據(jù)的變化存在許多噪聲,并且在正常語速下對數(shù)據(jù)進行正確的分割十分困難,目前存在的方法只能識別數(shù)字和單個字母,難以完成中文句子甚至關鍵字詞的識別和重構任務。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種移動終端語音分析系統(tǒng),能夠?qū)崿F(xiàn)完整的從加速度信號重構出語音信號的功能。
為實現(xiàn)上述目的,本發(fā)明的技術方案是:一種移動終端語音分析系統(tǒng),包括:
數(shù)據(jù)預處理模塊,對輸入的語音信號進行預處理,轉(zhuǎn)換成RGB圖像;
語音識別模塊,對預處理得到的RGB圖像大小進行調(diào)整,然后輸入神經(jīng)網(wǎng)絡進行訓練,得到神經(jīng)網(wǎng)絡模型;待識別的加速度計數(shù)據(jù)經(jīng)過預處理和圖像大小調(diào)整后輸入訓練后的神經(jīng)網(wǎng)絡模型,輸出預測結果;
語音重構模塊,實現(xiàn)從加速度信號重構出語音信號的功能;對于輸入的加速度信號頻譜圖,重構模塊內(nèi)部基于自動編碼器設計的神經(jīng)網(wǎng)絡會先對其進行處理,經(jīng)過訓練的神經(jīng)網(wǎng)絡模型,輸出加速度信號對應的語音信號的頻譜圖,再使用Griffin-Lim算法從語音信號頻譜圖還原出語音信號,達到從加速度信號重構出語音信號的目標。
在本發(fā)明一實施例中,所述語音信號是通過手機加速度計獲取。
在本發(fā)明一實施例中,所述數(shù)據(jù)預處理模塊的功能具體實現(xiàn)如下:
步驟S1、利用插值法處理加速度計測量數(shù)據(jù)的不穩(wěn)定區(qū)間;
步驟S2、使用帶通濾波消除重力、硬件和人類活動造成的失真;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經(jīng)福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110133543.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





