[發明專利]基于LDA主題模型與分層神經網絡的情感分類方法在審
| 申請號: | 202010698706.5 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111949790A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 劉洪濤;錢啟敏 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/258;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 lda 主題 模型 分層 神經網絡 情感 分類 方法 | ||
1.基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于,包括以下步驟:
S1、將文檔輸入LDA主題模型獲得文檔的文檔-主題分布和主題-詞分布;
S2、將文檔以標點符號劃分為句子,以句子為單位進行分詞,并將句中的詞匯表示為詞向量,輸入到雙向循環神經網絡中,獲取詞匯的隱藏狀態向量;
S3、在詞匯層面,獲取詞級別的主題特征向量,結合詞匯的隱藏狀態向量,使用注意力機制對句子中的詞匯進行加權,形成句子的向量表示;
S4、在句子層面,將句子向量輸入到雙向循環神經網絡中,獲得句子的隱藏狀態向量后,使用注意力機制對文檔中的句子進行加權,獲取文檔的向量表示。
2.根據權利要求1所述基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于:所述文檔-主題分布和主題-詞分布分別為:每篇文檔分屬K個主題的概率分布和每個主題下V個詞匯的概率分布。
3.根據權利要求1或2所述基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于:所述LDA主題模型的處理過程為:
1)對于每一篇文檔d=1,…,D,采樣一個文檔-主題分布θd~Dir(α);
2)對于每一個主題k=1,…,K,采樣一個主題-詞匯分布βk~Dir(η);
3)對于文中的每一個詞w=1,…,V,采樣一個主題標簽Zdv~Mult(θd),在主題標簽Zdv的主題詞匯分布下采樣一個單詞
其中Mult(.)是多項式分布,Dir(.)是Dirichlet分布,θd是任一文檔d的主題分布,α是分布的超參數,是一個K維向量,K代表主題個數;βk是任一主題K的詞匯分布,η是分布的超參數,是一個V維向量,V代表數據集中所有文檔中不重復的詞的個數;文檔-主題分布,主題-詞匯分布是模型需要學習的參數,Zdv是隱變量,Wdv是可觀察到的變量,D是文檔集中的文檔數量。
4.根據權利要求1所述基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于:步驟2所述獲取詞匯的隱藏狀態向量具體為,將文檔的第i個句子的第t個單詞的詞向量wit,傳入到雙向雙向循環神經網絡,得到包含上下文信息的隱藏狀態向量,其過程如下表示:
其中,代表詞匯的前向隱藏狀態,代表詞匯的后向隱藏狀態,和均代表GRU單元,hit代表詞匯的隱藏狀態向量,T代表第i個句子有T個詞匯。
5.根據權利要求1所述基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于:所述步驟3具體包括:
S3.1、將LDA主題模型提取出的主題-詞分布通過全連接層轉化成低維主題嵌入ek,得到與詞匯隱藏狀態向量相同的維數;
S3.2、針對句中的每個詞,計算出詞與每個主題之間的關聯權重;
S3.3、計算出詞級別的主題特征向量;
S3.4、結合詞匯的隱藏狀態向量,使用注意力機制對句子中的詞匯進行加權,形成句子的向量表示。
6.根據權利要求1所述基于LDA主題模型與分層神經網絡的情感分類方法,其特征在于:步驟4所述具體包括:
S4.1、文檔的第i個句子向量為si,i∈[1,L],傳入到雙向循環神經網絡得到句子的隱藏狀態向量hi;
S4.2、使用注意力機制對文檔中的句子進行加權,獲取文檔的向量表示v。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010698706.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隔離刀閘
- 下一篇:一種動態環境下融合邊緣信息的稠密視覺里程計方法





