[發明專利]一種基于實體替換的文本分類方法有效
| 申請號: | 202011131161.6 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112215000B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 劉洪濤;章家涵 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/295;G06F40/30;G06N3/04;G06F16/35 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實體 替換 文本 分類 方法 | ||
1.一種基于實體替換的文本分類方法,其特征在于,包括以下步驟:
S1:利用外部知識庫檢測出文檔中的錨定短語并查詢每個錨定短語對應的實體集合;
S2:將文檔詞向量獲得的實體集合來求嵌入矩陣求平均,得到文檔的上下文向量;
S3:分別計算各錨定短語對應實體在文檔上下文表示向量下的注意力權重,得到各實體的去歧向量;
S4:將原文位置上的實體替換為去歧實體向量并輸入長短時記憶網絡,得到去歧后的文檔表示向量,并將去歧后的文檔表示向量輸入到神經網絡的全連接層,使用分類器計算各文本屬于各類別的概率來訓練網絡;
S5:利用訓練好的模型預測待預測文本所屬類別,取概率最大的類別作為預測的類別輸出;
所述步驟S1中,利用外部知識庫檢測出文檔中的錨定短語并查詢每個錨定短語對應的實體集合,包括以下步驟:
S11:定義“實體”為知識庫中確定,無歧義的對象;“錨定短語”為字面形式的文字,一個錨定短語可對應多個實體,一個實體也可以由多個錨定短語來表示;
S12:在外部資料庫Wikipedia中收集所有的錨定短語,對于每一個錨定短語s,將所有與其有連接的實體{e1,e2,...eK}作為它的實體字典,所有的錨定短語與其實體字典共同構成Wikipedia字典;
S13:抽取出文檔T中所有n-grams短語(n≤k),n-grams短語指由n個詞構成的短語,如果一個n-grams可以在Wikipedia字典中作為錨定短語存在,并且有至少兩個對應的實體,那么就把這個n-grams加入候選錨定短語,對于有矛盾覆蓋的n-grams短語,采取“最先最長”的方法,即選取最長的最先出現的n-grams短語,一個文檔中的所有錨定短語表示為:
U(T)={c1,c2,...}
第i個錨定短語對應的實體集合表示為:
E(ci)={e1,e2,...};
所述步驟S2中,將文檔詞向量求平均,得到文檔的上下文向量,包括以下步驟:
S21:使用Wikipedia2Vec工具進行預訓練,得到單詞和實體的嵌入矩陣,令文檔中第i個詞的詞向量表示x是d維向量,表示d維空間,d表示維度數,文檔長度為n,則句子表示為:
x1:n=[x1;x2;...;xn]
S22:對文檔T,將詞向量求平均,得到文檔的上下文向量,計算公式如下:
其中,C為文檔的上下文向量;
所述步驟S3中,分別計算各錨定短語對應實體在文檔上下文表示向量下的注意力權重,得到各錨定短語的去歧向量,包括以下步驟:
S31:借助步驟S21中Wikipedia2Vec工具預訓練的嵌入矩陣,得到步驟S1中匹配到的實體對應的向量表示,令文檔中第i個錨定短語對應的第j個實體向量
S32:對于每個錨定短語,計算其對應的實體向量在步驟S2中得到的上下文表示向量下的注意力權重,然后對實體向量加權求和,得到各錨定短語的去歧向量,計算公式如下:
其中,αij為文檔第i個錨定短語對應的第j個實體在上下文C下的注意力權重,v為文檔第i個錨定短語對應實體的個數,zi為文檔第i個錨定短語的去歧向量;
所述步驟S4中,將原文位置上的實體替換為去歧實體向量并輸入長短時記憶網絡,得到去歧后的文檔表示向量,并將其輸入到神經網絡的全連接層,使用分類器計算各文本屬于各類別的概率來訓練網絡,包括以下步驟:
S41:將原文檔的錨定短語替換為步驟S3所得的對應去歧向量,則文檔可表示為T=[x1;...;z1;...;zv;...;xn],zv表示最后一個去歧向量,xn表示最后一個原文詞向量,為方便描述,記為[l1;...;lr],其中r為替換后所含向量數目;
S42:對于文檔T,將詞向量和去歧向量按照順序依次輸入到一個雙向的長短時記憶網絡中,對于長短期記憶網絡的正向,依次輸入l1,...,lr,對于長短期記憶網絡的反向,則依次輸入lr,...,l1;計算每個詞在正向和反向的隱層狀態值,將這些隱層狀態值求和,得到最終去歧后的文檔表示向量,計算公式如下:
其中,li為文檔表示中第i個向量,f為長短時記憶網絡中隱層狀態計算函數,表示文檔中第i個向量在正向長短時記憶網絡中的隱層狀態向量,表示文檔中第i個向量在反向長短時記憶網絡中的隱層狀態向量,o為文檔的去歧向量;
S43:將文檔的去歧向量輸入到全連接層,并使用softmax歸一化,計算文檔屬于各類別的概率,最后以對數似然函數為損失函數,通過隨機梯度下降,利用反向傳播迭代更新模型參數,以最小化損失函數來訓練模型,計算公式如下:
p=softmax(Wco+bc)
其中,Wc為全連接層權重矩陣,bc為偏置項,softmax是歸一化操作,p為文檔屬于各個類別的概率,x為訓練集中的文檔,y為其真實類別標簽,θ為模型參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011131161.6/1.html,轉載請聲明來源鉆瓜專利網。





