[發明專利]基于唇部的語音端點檢測方法及裝置、車載終端、存儲介質在審
| 申請號: | 202110633035.9 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113380236A | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 管岱 | 申請(專利權)人: | 斑馬網絡技術有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/25;G10L25/78;G06K9/62;G06K9/00 |
| 代理公司: | 上海華誠知識產權代理有限公司 31300 | 代理人: | 徐穎聰 |
| 地址: | 200030 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 唇部 語音 端點 檢測 方法 裝置 車載 終端 存儲 介質 | ||
本發明提供一種基于唇部的語音端點檢測方法及裝置、終端設備、存儲介質,該方法包括:獲取語音信息及所述語音信息所對應的第一時間段;基于所述第一時間段獲取視頻流;基于所述視頻流,進行唇動檢測,提取視覺特征;基于唇部的視覺特征,確定語音端點;該檢測方法結合視頻特征來判斷語音端點,能夠去除無效的、噪音類的語音信息,有效克服了噪聲音頻被VAD誤召回后的風險;此外,在從視頻流中提取視覺特征的過程中,通過輸入唇部區域的圖像序列,并利用幀間時序融合處理方法,得到第一時間段內駕駛員唇動的視覺特征,不依賴唇部特征點定位方法,因此該方法鏈路短,適合車載低算力場景,提高語音端點的檢測效率。
技術領域
本申請涉及語音檢測技術領域,尤其涉及一種基于唇部的語音端點檢測方法及裝置、車載終端、計算機可讀存儲介質。
背景技術
VAD(Voice Activity Detection,語音活動檢測)又稱語音端點檢測,語音邊界檢測,目的是檢測語音信號是否存在,作為車載語音識別技術的前序流程,在人車交互流程中尤為重要。
目前主流的VAD技術都是基于音頻信號進行分析,通常利用能量、頻譜、諧波等特征,使用高斯混合模型、深度神經網絡等模型來實現。在全雙工語音交互流程中,用戶一次喚醒90秒內任意對話。
然而,在車載場景中,通常伴隨著乘客閑聊、車外風聲和車內有聲設備播放等噪聲場景,這些噪聲對基于聲學的VAD技術帶來了極大的挑戰,噪聲音頻被VAD誤召回后,容易在云端NLU產生錯誤理解,從而降低了自然對話中的用戶體驗。
發明內容
有鑒于此,本申請的目的在于提供一種基于唇部的語音端點檢測方法、裝置、終端設備、及計算機可讀存儲介質,該檢測方法能夠避免噪聲音頻的污染,提高用戶體驗。
為解決上述技術問題,本申請采用以下技術方案:
一方面,根據本發明實施例提供一種基于唇部的語音端點檢測方法,包括:
獲取語音信息及所述語音信息所對應的第一時間段;
基于所述第一時間段獲取視頻流;
基于所述視頻流,進行唇動檢測,提取視覺特征;
基于唇部的所述視覺特征,確定語音端點。
優選地,所述基于所述視頻流,進行唇動檢測,提取視覺特征,包括:
將所述視頻流以幀為單位分割為多幀圖像;
確定時間窗口,獲取該時間窗口內的視覺特征,其中,所述時間窗口內包括多幀圖像;
通過滑窗處理確定所述視頻流對應的視覺特征。
優選地,獲取該時間窗口內的視覺特征包括:
對于時間窗口內的每幀所述圖像,確定唇部區域;
基于每幀圖像的唇部區域,提取唇部特征;
基于該時間窗口內的所有幀圖像的所述唇部特征進行融合,得到該時間窗口內的所述視覺特征。
優選地,對于時間窗口內的每幀所述圖像,確定唇部區域包括:
對于每幀所述圖像,利用人臉檢測算法確定人臉位置;
基于所述人臉位置,利用人臉特征點定位算法獲得人臉特征點位置;
基于所述人臉特征點位置,在所述圖像中確定所述唇部區域。
優選地,基于每幀圖像的唇部區域,提取唇部特征包括:
利用神經網絡編碼器從每幀所述圖像的唇部區域中,提取所述唇部特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于斑馬網絡技術有限公司,未經斑馬網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110633035.9/2.html,轉載請聲明來源鉆瓜專利網。





