[發明專利]多語種智能語音對話的方法及系統有效
| 申請號: | 201911392129.0 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111128126B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 張朋;魏云波;周琦 | 申請(專利權)人: | 海智訊通(上海)智能科技有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L13/04;G10L15/02;G10L15/04;G10L15/06;G10L15/183;G10L15/26;G10L15/30;G10L25/72;G10L25/78;H04L67/02 |
| 代理公司: | 上海坤元知識產權代理有限公司 31376 | 代理人: | 董強 |
| 地址: | 200000 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語種 智能 語音 對話 方法 系統 | ||
1.一種多語種智能語音對話的方法,其特征在于,包括以下步驟:
步驟1,建立互聯網端與手機端進行通信聯系的通道
通過外呼裝置實現在互聯網端基于websocket協議以及webrtc協議的基礎上將互聯網端和客戶手機端通話信道打通;
步驟2,通過通訊服務器實現語音媒體信息流的傳輸
通道建立后,通過通訊服務器完成通道內通話雙方媒體聲音傳輸;使用電話軟交換平臺捕獲經由通道傳輸的媒體聲音流,并開三通將媒體聲音導出;
步驟3,語音識別
步驟3.1,預處理:通過包括預加重方式、分幀方式和加窗方式進行聲音預處理;
步驟3.2,語種識別:將分幀加窗后的信號轉換為語譜圖,使用深度卷積神經網絡針對語譜圖數據進行特征提取,識別出相應語種;若識別出的語種非當前交互語種,則當前交互語種切換為識別出的語種類型;
步驟3.3,提取聲學特征:對分幀加窗后的各幀信號進行快速傅里葉FFT變換得到相應的頻譜信號,并對語音信號的頻譜幅度譜取模平方得到語音信號的能量譜,能量譜通過一組梅爾濾波器組,計算每個濾波器的對數輸出能量,帶入離散余弦變換得到MFCC系數,提取動態差分參數,得到N維MFCC參數;
步驟3.4,根據語種提取對應語音的聲學特征:根據不同語種特點,使用步驟3.1和步驟3.2所述提取聲學特征步驟,提取其他聲學特征,并根據不同語種實際使用情況選用聲學特征或對聲學特征進行混合處理;
步驟3.5,靜音檢測:通過預訓練的基于深度神經網絡DNN和長短時記憶單元LSTM的混合網絡結構進行靜音檢測;
步驟3.6,斷句:根據靜音檢測結果及該語種對應預設閾值將語音流進行斷句處理;
步驟3.7,語音轉文字:通過聲學模型和語言模型將語音轉為對應語種文本信息輸出;
步驟4,語義分析
步驟4.1,意圖分析:通過步驟3.5中獲得的文本信息提取出對應意圖序列;
步驟4.2,BERT模型:步驟3.5所述獲得的對應句子級別的文本信息,輸入基于BERT預訓練模型用特定語種及場景的語料進行再訓練后的模型,獲得意圖序列;
步驟4.3,自定義詞庫模型:結合包括場景流程導向模塊、知識庫模塊和話術訓練模塊,將步驟3.5所述獲得的對應文本信息及目前會話流程節點信息輸入到已訓練的場景詞庫模型中,先提取到文本信息關鍵詞,再輸出文本信息對應的意圖序列;
步驟5,話術生成
步驟5.1,單套話術制作:根據場景會話要求,利用包括可視化流程圖編輯方式、可視化編輯方式和導入方式,為各場景設置基于該場景的對話交互流程,描述每個流程節點之間的關系,定義各種可能的意圖需要導向的下一個節點,從而串聯整個對話交互場景;每個節點及意圖配備一條或多條交互話術;此外還設置一套知識庫作為場景交互話術補充;
步驟5.2,話術組制作:為每種使用到的語種單獨制作一套完整的交互話術,組成一套多語種話術組,在通話中用不同語種進行交互,滿足通話中根據客戶對話在不同語種間無縫靈活切換;
步驟5.3,話術生成:在交互過程中實時獲得需要反饋的交互話術內容;
步驟6,文字轉語音
步驟6.1,選中文字轉語音存在人工錄音模型、語音合成模型,及兩者結合多種實現方式;
步驟6.2,根據場景及預期使用的多個語種準備各語種的交互語音,采用人工錄制并訓練對應聲音模型用于后續關鍵參數合成,設置需要的語音特點合成交互語音;
步驟6.3,交互語音及模型準備好后,經過播放語音進行試聽和電話試打后選用適合的效果理想的交互語音及模型;
步驟6.4,若步驟3.2中所述當前語種對應的交互語音及模型已準備好,則直接調用交互語音及模型;
步驟6.5,若步驟3.2中所述當前交互語種對應的交互語音及模型未準備好,需翻譯成當前交互語種對應的文字,再調用外接語音合成應用將翻譯后的交互話術文本合成對應語音;
步驟7,語音播放
調用電話軟交互的放音接口播放如步驟6中所述獲得的交互話術語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海智訊通(上海)智能科技有限公司,未經海智訊通(上海)智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911392129.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:惡意軟件檢測系統攻擊防止
- 下一篇:一分多線束夾持裝置





