[發(fā)明專利]基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110584120.0 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113343706A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設計)人: | 王紅;張慧;莊魯賀;韓書;李威;楊杰;王正軍;楊雪;滑美芳 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F40/205;G06F40/242;G06F40/253;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產(chǎn)權代理有限公司 37221 | 代理人: | 祖之強 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態(tài) 特征 語義 規(guī)則 文本 抑郁 傾向 檢測 系統(tǒng) | ||
本公開提供了一種基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng),工作方法為:獲取待處理的文本數(shù)據(jù),對獲取的文本數(shù)據(jù)進行預處理;根據(jù)預處理后的文本數(shù)據(jù)和預設詞嵌入模型,得到詞嵌入向量;根據(jù)預處理后的文本數(shù)據(jù)、預設情感詞典和預設語義規(guī)則,得到文本的情感值特征向量;提取文本數(shù)據(jù)中的詞性特征向量,與詞嵌入向量拼接后,得到單詞級別的特征向量表示;提取文本數(shù)據(jù)中的詞頻特征向量,與情感值特征向量拼接后,得到句子級別的特征向量表示;根據(jù)單詞級別的特征向量表示、句子級別的特征向量表示以及預設CNN?BiLSTM網(wǎng)絡模型,得到最終的分類結果;本公開考慮了文本的情感信息,提取了多模態(tài)的文本特征,提高了文本抑郁傾向檢測的精度。
技術領域
本公開涉及文本數(shù)據(jù)處理技術領域,特別涉及一種基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng)。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術,并不必然構成現(xiàn)有技術。
抑郁癥是一種嚴重的精神疾病,隨著社交媒體的迅速發(fā)展,患有精神疾病的用戶會在社交平臺上發(fā)布一些帖子,以在線尋求幫助和支持,這使得龐大的數(shù)據(jù)可供研究人員進行分析。在這項工作中,本實施例的主要檢測Reddit數(shù)據(jù)集上患有抑郁傾向的用戶。
發(fā)明人發(fā)現(xiàn),在基于文本數(shù)據(jù)的抑郁傾向檢測技術方面,現(xiàn)有的方法大多都采用詞嵌入的方法作為詞或句子的向量表示,缺乏情感信息,不能精確捕獲句子的整體情感;并且,由于社交媒體帖子書寫隨意性、并過多使用網(wǎng)絡詞語,因此采用傳統(tǒng)詞嵌入的方式無法捕獲句子更豐富的情感方面的信息,從而導致模型分類精度不高。
發(fā)明內容
為了解決現(xiàn)有技術的不足,本公開提供了一種基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng),考慮了文本的情感信息,提取了多模態(tài)的文本特征,提高了文本抑郁傾向檢測的精度。
為了實現(xiàn)上述目的,本公開采用如下技術方案:
本公開第一方面提供了一種基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng)。
一種基于多模態(tài)特征和語義規(guī)則的文本抑郁傾向檢測系統(tǒng),包括:
數(shù)據(jù)獲取模塊,被配置為:獲取待處理的文本數(shù)據(jù),對獲取的文本數(shù)據(jù)進行預處理;
詞嵌入模塊,被配置為:根據(jù)預處理后的文本數(shù)據(jù)和預設詞嵌入模型,得到詞嵌入向量;
情感值特征向量獲取模塊,被配置為:根據(jù)預處理后的文本數(shù)據(jù)、預設情感詞典和預設語義規(guī)則,得到文本的情感值特征向量;
單詞級特征向量獲取模塊,被配置為:提取文本數(shù)據(jù)中的詞性特征向量,與詞嵌入向量拼接后,得到單詞級別的特征向量表示;
句子級特征向量獲取模塊,被配置為:提取文本數(shù)據(jù)中的詞頻特征向量,與情感值特征向量拼接后,得到句子級別的特征向量表示;
分類模塊,被配置為:根據(jù)單詞級別的特征向量表示、句子級別的特征向量表示以及預設CNN-BiLSTM網(wǎng)絡模型,得到最終的分類結果。
進一步的,分類模塊中,將單詞級別的特征向量表示和句子級別的特征向量表示,分別輸入到預設卷積神經(jīng)網(wǎng)絡中,將兩個卷積神經(jīng)網(wǎng)絡輸出的高層特征進行融合后輸入到預設Bi-LSTM網(wǎng)絡模型中,得到分類結果。
進一步的,對獲取的文本數(shù)據(jù)進行預處理,包括:
從文本數(shù)據(jù)中提取標題、內容和標簽,去除由于已刪除內容而缺少的數(shù)據(jù)以及不相關數(shù)據(jù),將文本數(shù)據(jù)轉換為小寫字母。
進一步的,采用Word2vec詞嵌入模型生成嵌入向量。
進一步的,利用擴充后的SenticNet4情感詞典,根據(jù)情感詞典中每個單詞的情感極性值和預設語義規(guī)則,進行句子情感值計算,得到文本的情感值特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經(jīng)山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110584120.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法





