[發明專利]一種應用于自行車環境的語音控制方法及系統有效
| 申請號: | 201710522405.5 | 申請日: | 2017-06-30 |
| 公開(公告)號: | CN107403619B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 李成華;葉正;金燦燦;劉麗君;李駿;劉雄風 | 申請(專利權)人: | 武漢泰迪智慧科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16;G10L15/26;G06F40/30;G06N3/02 |
| 代理公司: | 武漢智嘉聯合知識產權代理事務所(普通合伙) 42231 | 代理人: | 黃君軍 |
| 地址: | 430000 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用于 自行車 環境 語音 控制 方法 系統 | ||
1.一種應用于自行車環境的語音控制方法,其特征在于,包括:
S1、獲取語音消息,對所述語音消息進行預處理;
S2、對預處理后的所述語音消息進行語音識別,從而將預處理后的所述語音消息轉化為識別結果文本;
S3、對所述識別結果文本進行預處理;
S4、所述識別結果文本進行預處理操作后,判斷所述識別結果文本的主題,然后判斷所述識別結果文本的意圖和抽取所述識別結果文本的實體信息;
S5、根據所述識別結果文本的主題、意圖、實體信息查找數據庫,匹配出所述識別結果文本對應的動作;
S6、執行S5匹配到的動作;
步驟S1中預處理操作包括:
S11、利用諧波噪聲的自適應梳狀濾波對所述語音消息進行基頻跟蹤實現降噪,再利用聲碼器再合成法,對所述語音消息進行迭代降噪;
S12、針對不同噪音進行相應建模,利用建立的各種噪聲的模型過濾所述語音消息的噪聲,再利用人聲模型對所述語音消息進行聲音過濾;
S13、使用指向性麥克風,通過麥克風精準指向用戶人聲聲源,結合DSP算法和干擾相減法,將所述語音消息的非人聲噪聲減去,同時對所述語音消息的人聲進行信號放大;
S14、按照固定時間長度將語音消息切分為多段音頻片段,每一段音頻片段稱為語音消息的一幀;然后對所有的幀進行加窗處理;
步驟S2中,利用人工神經網絡模型和隱馬爾可夫模型的混合模型進行語音識別,具體步驟為:
語音消息進行預處理后,提取語音消息每一幀的特征參數;將當前幀的特征參數和前一幀的特征參數送入人工神經網絡模型,通過人工神經網絡計算得到當前幀對應在各個馬爾科夫過程的狀態的后驗概率;其后,將各個馬爾科夫過程的狀態的后驗概率作為輸入傳給隱馬爾可夫模型,隱馬爾可夫模型聯合語法知識和語義知識構建解碼空間,并將解碼空間中最優的狀態序列轉換成對應的音素,然后再查找字典,組裝成單詞,從而獲取語音識別后的識別結果文本;各個馬爾科夫過程的狀態為:將全部聲母和韻母作為漢語的音素集,每一個音素劃分成3個馬爾科夫過程的狀態;
步驟S3中預處理操作為:
將所述識別結果文本進行分詞、詞性標注以及去除停用詞后形成詞語序列;
步驟S4中:
預先設置包含若干主題的一主題集合,主題集合中每一主題與一意圖集合建立映射關系,意圖集合包含若干意圖;
判斷所述識別結果文本的主題的步驟為:采用雙向的長短期記憶模型作為主題判斷模型,將詞語序列對應的詞向量序列輸入主題判斷模型,獲取識別結果文本在主題集合中的各個主題上的概率分布,選取概率值最大的主題為識別結果文本的主題;
判斷所述識別結果文本的意圖的步驟為:采用雙向的長短期記憶模型作為意圖判斷模型,將詞語序列對應的詞向量序列輸入意圖判斷模型,獲取識別結果文本在主題對應的意圖集合中的各個意圖上的概率分布,選取概率值最大的意圖為識別結果文本的意圖。
2.一種應用于自行車環境的語音控制系統,其特征在于,包括:
語音消息預處理模塊:獲取所述語音消息,對所述語音消息進行預處理;
語音識別模塊:對預處理后的所述語音消息進行語音識別,從而將預處理后的所述語音消息轉化為識別結果文本;
文本預處理模塊:對所述識別結果文本進行預處理;
主題意圖判斷模塊:所述識別結果文本進行預處理操作后,判斷所述識別結果文本的主題,然后判斷所述識別結果文本的意圖和抽取識別結果文本的實體信息;
動作匹配模塊:根據所述識別結果文本的主題、意圖、實體信息查找數據庫,匹配出識別結果文本對應的動作;
動作執行模塊:執行動作匹配模塊匹配到的動作;
語音消息預處理模塊包括:
第一處理單元:利用諧波噪聲的自適應梳狀濾波對所述語音消息進行基頻跟蹤實現降噪,再利用聲碼器再合成法,對所述語音消息進行迭代降噪;
第二處理單元:針對不同噪音進行相應建模,利用建立的各種噪聲的模型過濾所述語音消息的噪聲,再利用人聲模型對所述語音消息進行聲音過濾;
第三處理單元:使用指向性麥克風,通過麥克風精準指向用戶人聲聲源,結合DSP算法和干擾相減法,將所述語音消息的非人聲噪聲減去,同時對所述語音消息的人聲進行信號放大;
第四處理單元:按照固定時間長度將語音消息切分為多段音頻片段,每一段音頻片段稱為語音消息的一幀;然后對所有的幀進行加窗處理;
語音識別模塊中:
利用人工神經網絡模型和隱馬爾可夫模型的混合模型進行語音識別,其具體包括:
語音消息進行預處理后,提取語音消息每一幀的特征參數;將當前幀的特征參數和前一幀的特征參數送入人工神經網絡模型,通過人工神經網絡計算得到當前幀對應在各個馬爾科夫過程的狀態的后驗概率;其后,將各個馬爾科夫過程的狀態的后驗概率作為輸入傳給隱馬爾可夫模型,隱馬爾可夫模型聯合語法知識和語義知識構建解碼空間,并將解碼空間中最優的狀態序列轉換成對應的音素,然后再查找字典,組裝成單詞,從而獲取語音識別后的識別結果文本;各個馬爾科夫過程的狀態為:將全部聲母和韻母作為漢語的音素集,每一個音素劃分成3個馬爾科夫過程的狀態;
文本預處理模塊中:
將識別結果文本進行分詞、詞性標注以及去除停用詞后形成詞語序列;
主題意圖判斷模塊中:
預先設置包含若干主題的一主題集合,主題集合中每一主題與一意圖集合建立映射關系,意圖集合包含若干意圖;
采用雙向的長短期記憶模型作為主題判斷模型,將詞語序列對應的詞向量序列輸入主題判斷模型,獲取所述識別結果文本在主題集合中的各個主題上的概率分布,選取概率值最大的主題為所述識別結果文本的主題;
采用雙向的長短期記憶模型作為意圖判斷模型,將詞語序列對應的詞向量序列輸入意圖判斷模型,獲取所述識別結果文本在主題對應的意圖集合中的各個意圖上的概率分布,選取概率值最大的意圖為所述識別結果文本的意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢泰迪智慧科技有限公司,未經武漢泰迪智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710522405.5/1.html,轉載請聲明來源鉆瓜專利網。





