[發明專利]語音斷句方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110725596.1 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113436617B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 曹磊;李俊蓉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/05;G10L15/26;G10L25/87;G06F18/22;G06F40/284 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 汪飛亞 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 斷句 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,提供一種語音斷句方法及相關設備,使用靜默時間計算模型根據用戶語音的語速語調及用戶參數計算靜默時間,以所述靜默時間為斷點對用戶語音進行斷句處理,實現了千人千面的打斷判斷;在得到多個第一斷句語音后,使用詞匯模型識別每個第一斷句語音中的末端字詞是否為目標字詞,從而在識別到有目標末端字詞為目標字詞時,對包含目標末端字詞的目標第一斷句語音進行斷句處理得到多個第二斷句語音,將包含目標末端字詞的第二斷句語音與目標第一斷句語音相鄰的第一斷句語音進行合并處理得到第三斷句語音,最后根據第三斷句語音對第一斷句語音進行更新,得到目標斷句語音,實現了對用戶語音的正確斷句。
技術領域
本發明涉及人工智能技術領域,具體涉及一種語音斷句方法、裝置、計算機設備及存儲介質。
背景技術
目前市面上的外呼對話機器人,在進行語音識別的時候,通常以停頓為判斷依據進行斷句,但在實際識別時容易出現斷句不正確的情況,主要有以下的情況:
1)用戶在回復機器人時,會出現邊說邊思考的情況,在表達一句短句后其實還沒說完,但由于思考時間、反應時間出現遲疑時,容易被進行斷句,導致只識別了前半句的情況;
2)用戶在回復機器人時,如有環境比較嘈雜或者有背景聲時,容易出現用戶已經說完,但依然有聲音,導致無法判斷是否已斷句,從而導致無法識別出文字,引起機器人無法及時回應的情況;
3)用戶在回復機器人時,由于本身說話的語音語調各有差異,語速較慢時,容易引起斷句不正確,導致只識別前半句的情況。
發明內容
鑒于以上內容,有必要提出一種語音斷句方法、裝置、計算機設備及存儲介質,能夠提升語音斷句的準確性。
本發明的第一方面提供一種語音斷句方法,所述方法包括:
獲取用戶參數及用戶語音,根據所述用戶語音獲取語速語調,調用靜默時間計算模型基于所述語速語調和所述用戶參數獲取靜默時間;
根據所述靜默時間對所述用戶語音進行斷句處理,得到多個第一斷句語音;
提取每個第一斷句語音中的末端字詞,使用預先訓練的詞匯模型識別每個末端字詞是否為目標字詞;
當識別到所述末端字詞為目標字詞時,對包含所述目標字詞的所述第一斷句語音進行斷句處理,得到多個第二斷句語音;
獲取包含所述目標字詞的第一斷句語音的相鄰斷句語音為待處理語音并將包含所述目標字詞的所述第二斷句語音與所述待處理語音進行合并處理,得到第三斷句語音;
將不包含所述目標字詞的所述第一斷句語音、不包含所述目標字詞的所述第二斷句語音及所述第三斷句語音按照順序排列,得到所述目標斷句語音。
根據本發明的一個可選的實施方式,在得到所述目標斷句語音之后,所述方法還包括:
設置約束條件;
對所述目標斷句語音進行包括預加重、加窗分幀在內的預處理;
對預處理后的目標斷句語音進行快速傅里葉變換,得到多個子帶;
使用所述約束條件對每個子帶進行線性約束,得到目標子帶;
計算每個目標子帶的能量概率分布密度及根據所述能量概率分布密度計算對應的子帶的譜熵;
對每個子帶的譜熵進行平滑處理得到門限閾值;
使用雙門限端點檢測法基于所述門限閾值檢測出音節起始點和終止點;
根據所述音節起始點和所述終止點對所述目標斷句語音進行語音分割。
根據本發明的一個可選的實施方式,所述使用所述約束條件對每個子帶進行線性約束,得到目標子帶包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110725596.1/2.html,轉載請聲明來源鉆瓜專利網。





