[發明專利]一種語音交互方法及設備在審
| 申請號: | 202011244729.5 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112382280A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 劉洋宇;黃安子;張云翔;饒竹一;李智誠 | 申請(專利權)人: | 深圳供電局有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/22;G10L15/26;G10L21/0208;H04R1/40;H04R3/00 |
| 代理公司: | 深圳匯智容達專利商標事務所(普通合伙) 44238 | 代理人: | 孫威 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 交互 方法 設備 | ||
本發明公開了一種語音交互方法,獲取使用者對語音交互設備進行喚醒的命令;對使用者的喚醒命令進行定向拾音、遠場降噪及回音消除,以減少語音識別誤差;根據獲取的使用者對語音交互設備進行喚醒命令的前后數據信息,對語音信息進行糾錯,獲取包含有使用者意圖的信息文本;根據信息文本,對用戶進行反饋。本發明還公開了一種語音交互設備。實施本發明的語音交互方法及設備,提高語音識別的準確率,使能夠適應不用的任務場景;進一步提升用戶體驗。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種語音交互方法及設備。
背景技術
現有技術中,語音識別技術已較為成熟,在生活中得到了廣泛的應用。傳統的人機語音交互流程通過語音合成TTS,將文本合成為語音,傳回客戶端進行播報。上述這種簡單的人機語音交互鏈路,對于實現演示級別的系統是可以滿足的,但是在真實的用戶任務場景下會面臨難點,從而導致用戶體驗嚴重下降,存在的技術問題主要有:
1、語音識別不準。隨著深度學習技術在語音識別.上取得突破,在通用環境用戶配合情況下,語音識別已經達到可用。但是語音識別受環境嘈雜、距離遠近、方言口音、垂直領域術語、個性化詞匯、即時場景下特有用語各種因素的影響,當前實用語音識別的效果還不夠理想。
2、語義理解不對。語音交互中的語義理解要處理的用戶口語化的意圖表達,人類語言通常存在:上下文關聯、場景特定用語、口語化、常識背景、省略說法等語言現象,同時一些垂直領域實體取名復雜,存在大量實體歧義現象,場景、語境、交互對象的不斷切換讓語音交互中的語義理解更加困難。
因此,在真實的用戶任務場景下限制了語音識別的智能程度,也在一定程度上限制了它的應用,導致用戶體驗效果不佳。
發明內容
本發明所要解決的技術問題在于,提供一種語音交互方法及設備,提高語音識別的準確率,使能夠適應不用的任務場景;進一步提升用戶體驗。
為了解決上述技術問題,本發明的實施例提供了一種語音交互方法,包括以下步驟:獲取使用者對語音交互設備進行喚醒的命令;對使用者的喚醒命令進行定向拾音、遠場降噪及回音消除,以減少語音識別誤差;根據獲取的使用者對語音交互設備進行喚醒命令的前后數據信息,對語音信息進行糾錯,獲取包含有使用者意圖的信息文本;根據信息文本,對用戶進行反饋。
其中,對使用者的喚醒命令進行定向拾音、遠場降噪及回音消除,以減少語音識別誤差的步驟包括以下:根據雙向循環神經網絡模型、卷積神經網絡模型和/或端到端神經網絡模型,并結合句式數據,通過底層句子語義建模的方式進行語義糾錯,以避免由于用戶意圖理解失準或內容噪音所引起的系統響應偏差的步驟。
其中,對使用者的喚醒命令進行定向拾音的步驟包括:通過多麥克風陣列硬件以及相應的聲源定位和波束形成,計算聲源距離麥克風陣列的角度和距離,實現對目標聲源的跟蹤,同時在期望聲源方向上有效地形成一個波束,僅拾取波束內的信號,從而達到同時提取聲源和抑制噪聲的步驟。
其中,遠場降噪及回音消除的步驟包括:通過自適應濾波器消除掉揚聲器與麥克風之間的耦合,從而提升拾音得到語音的質量,端點檢測技術監測有效人聲、過濾一些非人聲的步驟。
其中,根據信息文本,對用戶進行反饋的步驟包括:采用拼接語音合成和/或波形建模語音合成的步驟。
其中,采用拼接語音合成的步驟包括通過受限領域固定文本格式的模板進行合成的步驟;采用波形建模語音合成的步驟包括通過動態變化部分內容進行合成的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳供電局有限公司,未經深圳供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011244729.5/2.html,轉載請聲明來源鉆瓜專利網。





