[發明專利]基于時間卷積神經網絡的多模態抑郁癥檢測方法及系統有效
| 申請號: | 202110184432.2 | 申請日: | 2021-02-10 |
| 公開(公告)號: | CN112818892B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 楊忠麗;李明定;張光華;武海榮 | 申請(專利權)人: | 杭州醫典智能科技有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/774;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 太原申立德知識產權代理事務所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 時間 卷積 神經網絡 多模態 抑郁癥 檢測 方法 系統 | ||
本發明提供一種基于時間卷積神經網絡的多模態抑郁癥檢測方法及系統。其檢測方法具體包括:構建訓練樣本集,其包含抑郁癥和非抑郁癥患者的音頻、3D面部表情和對應的文本信息;對訓練樣本集進行3D面部表情特征提取,獲得具備情境感知的3D面部表情特征向量;結合梅爾倒譜系數,用于對所述訓練樣本集的音頻信號進行聲學特征提取,獲得具備情境感知的語音向量特征;使用Transformer模型,對訓練樣本集詞嵌入進行處理,獲得具備情境感知的文本特征;對3D面部表情特征、語音向量特征和文本特征進行融合,獲得用于進行抑郁癥分類的信息;將用于進行抑郁癥分類的信息帶入時間卷積神經網絡,獲得抑郁癥分類信息。本發明能夠提高了抑郁癥檢測的準確性。
技術領域
本發明屬于大數據技術領域,具體涉及一種基于時間卷積神經網絡的多模態抑郁癥檢測方法及系統。
背景技術
世界上每年因為抑郁癥而自殺的患者有近80萬人,與其他身體疾病相比,精神障礙更難發現。早期的臨床實踐中,醫生通過在個人訪談中通過診斷抑郁癥狀的嚴重程度來確定患者是否患有抑郁癥。后來,科研人員通過對語音信號的時域特征,例如停頓時間、錄音時間、對問題的反饋時間、語速等進行定量分析,幫助醫生對抑郁癥患者進行輔助診斷。但是,人們發現單一的特征對輔助臨床診斷的辨識度較低。近年來,隨著語音檢測技術的深入發展,研究者嘗試選取特定的語音特征,例如音高(pitch)、能量(energy)、語速(speaking?rate)、共振峰(formant)、梅爾倒譜系數(MFCC)等,將其組合,構建出檢測抑郁癥的分類模型。文本信息是另外一種與抑郁癥相關的及其重要的信息。研究表明,抑郁癥患者使用消極情感詞和憤怒詞明顯較正常人多,因此人們通常對詞頻統計作為文本特征表示。在臨床實驗中,大部分抑郁癥患者會將消極或煩躁的情緒通過面部表情的方式展現出來。因此,研究人員將面部特征也作為一種模態融合至抑郁癥檢測中。
在現有技術中,通常采用基于生化試劑和基于腦電的檢測手段,而在基于語音、文本或圖像的技術方案中,多以語音數據為依托,在臨床面試過程中,患者可能口吃且經常在單詞之間停頓,導致音頻、視頻記錄比非抑郁癥患者更長。簡言之,現有技術主要存在以下幾方面的問題:訓練數據量方面,現有的基于語音、文本或圖像的多模態抑郁癥檢測系統大部分由有限抑郁癥數據訓練得到,因此性能低下;特征提取方面,現有特征提取方法缺少受試者在回答不同問題時的面部表情特征,在抑郁癥檢測領域表現力不足,限制了最終抑郁癥檢測系統的性能;抑郁癥分類建模方面,現有技術沒有考慮語音、文本特征與抑郁癥診斷的長時間依賴關系;多模態融合方面,不同模態數據之間的特征分布差異大,現有技術簡單地把不同模態或通道下所得的子系統輸出串聯在一起,由于模態之間的特征差異導致特征融合過程中易出現信息損失,因此性能收到限制;在模型選擇方面,傳統方法多用基于遞歸神經網絡的抑郁癥檢測方法,對音頻、視頻的長度進行了限制。
發明內容
本發明的目的是基于上述技術現狀,提供一種基于時間卷積神經網絡的多模態抑郁癥檢測方法及系統。
一種基于時間卷積神經網絡的多模態抑郁癥檢測方法,包括如下步驟:
步驟1:構建訓練樣本集,所述訓練樣本集包含抑郁癥和非抑郁癥患者的音頻、3D面部表情和對應的文本信息;
步驟2:對所述訓練樣本集的3D面部表情進行面部表情特征提取,獲得具備情境感知的3D面部表情特征向量;
步驟3:使用音頻信號分幀加窗算法,結合短時傅里葉變換,繪制所述訓練樣本集的音頻信號的語譜圖;再使用三角濾波器,結合梅爾倒譜系數(MFCC),對所述訓練樣本集的語譜圖進行特征增強,獲得具備情景感知的語音向量特征;
步驟4:使用Transformer模型,對所述訓練樣本集的患者測試文本進行句子級嵌入處理,獲得具備情景感知的文本特征;
步驟5:使用圖卷積神經網絡(GCN),對所述3D面部表情特征向量、所述語音向量特征和所述文本特征進行融合,獲得用于進行抑郁癥分類的信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州醫典智能科技有限公司,未經杭州醫典智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110184432.2/2.html,轉載請聲明來源鉆瓜專利網。





