[發明專利]一種基于深度學習的帶有情感標簽文本生成及評估系統在審
| 申請號: | 202010023339.9 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN111914084A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 任磊;趙力 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京知匯林知識產權代理事務所(普通合伙) 11794 | 代理人: | 楊華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 帶有 情感 標簽 文本 生成 評估 系統 | ||
1.一種基于深度學習的帶有情感標簽文本生成及評估系統,該系統是基于卷積神經網絡和注意力模型的網絡結構,即CNN-Attention網絡模型,其特征在于:模型主要由兩部分組成,左邊部分為典型的卷積神經網絡結構,右邊部分為注意力模型的結構;整體流程為:首先對輸入的文本句子利用詞向量模型來進行編碼,轉換為詞向量表示后,經過卷積神經網絡以后得到該句子的相關特征,然后結合由注意力機制得到的特征進行拼接以后,通過全連接后利用分類器來完成文本情感分析的工作;
模型具體作業過程如下所示:a.模型表示
給定文本句子數據集D,其中包含有文本X{x1.,x2,…,xn}及每個句子所對應的情感標簽Y{y1.,y2,…,yn},其中每個文本句子xi有n個詞組成,表示為X{xi1.,xi2,…,xim},將最終的目標函數表示為:其中:θ表示該模型中涉及到所有的參數;f(·)表示該模型的形式化表達。
b.卷積神經網絡
卷積神經網絡是一種前饋神經網絡,其網絡結構主要由輸入層、卷積層、池化層(下采樣層)、全連接層和輸出層組成。其中卷積層為特征提取層,通過濾波器來提取句子的特征;池化層為特征映射層,對經過卷積層后得到的特征進行采樣,得到局部最優值。在本模型中將文本句子表示為輸入層,其中對每個句子X表示為n×k的矩陣,其中n表示構成文本句子的詞的長度,k表示詞向量xi的維度,文本句子中的詞向量采用word2vec模型來進行訓練得到。卷積層主要是為了來學習文本句子的局部特征,本層主要對輸入層的詞向量矩陣進行卷積操作,對每個大小為k的連續窗口進行操作,結果表示為:ci=f(w·xi:i+h-1+b)
其中:ci表示經過卷積操作后對應的第i個特征值;f(·)表示本層卷積核函數的選擇;w表示濾波器里的權重矩陣,其中w∈Rh×k,h×k表示選取的濾波器的大小;b表示偏置項;xi:i+h-1表示由文本句子中的第i個詞到i+h-1個詞的長度,本文采用多個濾波器來進行學習。經過卷積層后,得到特征矩陣c表示為:c=[c1,c2,…,cn-h+1]T
其中:c∈Rn-h+1。
池化層表示對本文句子經過卷積層后得到的特征矩陣c進行下采樣,選出其中局部最優特征,本文采用最大池化方式來進行采樣,經過池化層以后得到的特征表示為:c=max(c1,c2,…,cn-h+1)
在卷積層本文選用多通道的方式,即選擇多個濾波器來進行特征的提取,經過以上操作以后即可得到對原始文本句子的特征。
c.注意力模型
注意力模型是用來表征文本句子中的詞與輸出結果之間的相關性,表示句子xi中的每個詞與其相對應標簽yi之間的重要程度。在此將采用注意力模型生成的注意力文本用ai表示為:si=fatt(xij,yi)1≤i≤m,1≤j≤n;
其中:xi表示一個文本句子;yi表示此句子所對應的標簽;fatt表示含一個隱層的前向網絡;pi與si表示文本中每個詞的重要度信息。經過卷積神經網絡與注意力模型得到特征后,將池化層學習到的特征與注意力文本ai連接,作為全連接層的輸入,經過全連接層后輸出結果,表示為:
其中:s(x)表示經過模型后得到的輸出值;表示向量拼接操作;w′表示全連接層的權重矩陣;b′表示偏置項;f′(·)表示分類器的選擇。。
d.模型訓練
通過最小化負對數似然函數來進行訓練。對于給定的一個句子xi,通過本文模型經過訓練以后,得到給定句子的情感標簽τ∈T得分sθ(x),其中,T代表所分的類別,通過選擇分類器Softmax轉換為條件概率:
對上述公式取對數得:
然后采用隨機梯度下降算法來最小化負對數似然函數,得到:其中:xi、yi表示訓練語料的一條句子及其對應的情感標簽;D表示語料庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010023339.9/1.html,轉載請聲明來源鉆瓜專利網。





