[發明專利]快速語音交互方法及系統有效
| 申請號: | 201610616071.3 | 申請日: | 2016-07-29 |
| 公開(公告)號: | CN107665706B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 吳奎;陳凌輝;黃鑫;陳志剛;王智國;胡郁;劉慶峰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/183;G10L15/22;G10L15/26 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 趙景平;宋少華 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 快速 語音 交互 方法 系統 | ||
本發明公開了一種快速語音交互方法及系統,該方法包括:實時接收用戶語音輸入;對語音輸入信息進行實時語音識別,得到語音識別結果;基于預先構建的語義理解模型對當前語音識別結果進行實時語義理解,得到模型輸出結果;根據所述模型輸出結果確定是否有正確完整的語義理解結果;如果是,則根據所述語義理解結果生成交互結果,并將所述交互結果反饋給用戶;否則,繼續對語音輸入信息進行實時語音識別。本發明可以減小語音交互的反饋延遲,提升用戶體驗。
技術領域
本發明涉及語音信號處理、人機交互領域,具體涉及一種快速語音交互方法及系統。
背景技術
隨著人工智能技術的進步,人機語音交互也取得了長足的發展,各種語音助手APP和人機交互機器人大肆興起。這些語音助手和機器人與用戶進行交互的流程通常如下:
(1)通過語音或者設定操作進行喚醒;
(2)通過語音后端點檢測判斷用戶是否說完;
(3)檢測到用戶說完后,將識別結果傳入語義理解引擎,進行語義理解;
(4)根據語義理解結果,系統做出響應。
在上述流程中,語音識別和語義理解是串行進行的,即系統檢測到語音后端點后才將語音識別結果送入語義理解引擎。語音后端點檢測需要設定靜寂時長,通常為0.8s-1.8s之間,因此從用戶真正說完的時間點到獲得系統返回交互理解結果的時間,不考慮語義理解引擎耗時,至少存在一個靜寂時長這樣一個硬延遲。且在噪聲環境下,后端點檢測精度不高,會帶來更大的硬延遲,影響用戶體驗。
發明內容
本發明提供一種快速語音交互方法及系統,以減小語音交互的反饋延遲,提升用戶體驗。
為此,本發明提供如下技術方案:
一種快速語音交互方法,包括:
實時接收用戶語音輸入;
對語音輸入信息進行實時語音識別,得到語音識別結果;
基于預先構建的語義理解模型對當前語音識別結果進行實時語義理解,得到模型輸出結果;
根據所述模型輸出結果確定是否有正確完整的語義理解結果;
如果是,則根據所述語義理解結果生成交互結果,并將所述交互結果反饋給用戶;
否則,繼續對語音輸入信息進行實時語音識別。
優選地,所述方法還包括按以下方式構建所述語義理解模型:
確定模型拓撲結構;
收集人機交互文本數據作為訓練數據;
對所述訓練數據中用戶提問或回答語句文本進行分詞,并以單輪回答或提問為單位,獲取分詞詞串;
對所述分詞詞串中的每個詞,依據對話歷史信息,依次對語義理解結果進行賦值,并標注業務類別、以及信息槽或狀態槽,直至已標注詞串能夠表達一個正確完整的信息輸入時,停止標注并丟棄后續的詞串;
基于訓練數據及其賦值信息和標注信息,訓練得到語義理解模型。
優選地,所述模型拓撲結構采用RNN模型,包括輸入層、中間隱層和輸出層;
所述輸入層的輸入包括:當前詞的詞向量wn(t)、截止到上一個詞的隱層向量h(t-1)、對話歷史信息,其中,所述對話歷史信息包括:截止到上一個詞語義理解后的業務分類信息c(t-1)、以及信息槽填充情況s(t-1)或狀態槽填充情況st(t-1);
所述輸出層的輸出包括:語義理解結果p(t)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610616071.3/2.html,轉載請聲明來源鉆瓜專利網。





