[發明專利]一種基于樹狀網格記憶神經網絡的序列特征提取方法有效
| 申請號: | 201911398270.1 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111160009B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 辛欣;王睿 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樹狀 網格 記憶 神經網絡 序列 特征 提取 方法 | ||
1.一種基于樹狀網格記憶神經網絡的序列特征提取方法,其特征在于:包括以下步驟:
步驟1:對初始輸入的一個自然語言句子中的每個字進行嵌入表示,具體為:在輸入樹狀網格記憶網絡之前,通過公式(1)的嵌入函數將每個字表示為字向量ei:
ei=embed(xi) (1)
其中,用x表示初始輸入的一個自然語言句子,形式上為文字的序列,即x=[x1,x2,...,xM],xi表示x中第i個文字;embed(·)是嵌入函數;
步驟2:生成文字區間的記憶向量和特征向量,具體包括以下子步驟:
步驟2.1:生成初始文字區間的記憶向量;對于第i個文字對應的初始文字區間,使用該文字的嵌入向量ei作為該初始文字區間的記憶向量ci;
其中,i的取值范圍為1到M;
步驟2.2:生成初始文字區間的特征向量;由記憶向量與輸出門向量相乘,獲得第i個文字對應的初始文字區間的特征向量hi,具體為:
步驟2.2A:計算輸出門系數oi,具體通過(2)計算:
oi=σ(Wcoci+bo) (2)
其中,Wco和bo分別為記憶向量到輸出門的映射矩陣和映射偏置,兩者都是模型的參數,通過訓練過程得到具體的取值;σ(·)是sigmoid函數;
步驟2.2B:通過(3)計算i位置的特征向量hi:
hi=oi⊙tanh(ci) (3)
其中,⊙是向量的元素級乘法,tanh(·)是雙曲正切函數;
步驟2.3:合并文字區間;
其中,文字區間合并是指將兩個小的文字區間進行合并,得到一個大的文字區間的記憶向量,具體為:對于所有形式分別為(i,j-1)和(i+1,j)的兩個小的文字區間,合并得到一個大的文字區間(i,j);
其中,i和j是表示文字位置的變量,取值范圍取決于句子的長度;
步驟2.4:通過(4)和(5)計算文字區間合并中的遺忘門向量;在特征提取中需要專注于相應任務所需的特征,表示區間的內容時并不需要所有的信息;為了判斷兩個小區間分別有哪些內容用于表示大的區間,通過(4)和(5)分別對左右兩個小區間計算遺忘門向量和來表示兩個小區間中的內容有多少應當合并到大的文字區間中:
其中,t為當前處理的大區間的下標;在計算左邊的文字區間的遺忘門向量時,分別為從左邊特征向量、右邊特征向量、左邊記憶向量、右邊記憶向量到左邊遺忘門向量的映射矩陣,bfl是左邊遺忘門向量的偏置向量;在計算右邊的文字區間的遺忘門向量時,分別為從左邊特征向量、右邊特征向量、左邊記憶向量、右邊記憶向量到右邊遺忘門向量的映射矩陣,bfr是右邊遺忘門向量的偏置向量;σ(·)是sigmoid函數;
步驟2.5:計算文字區間合并中的記憶向量,將兩個小區間的記憶向量分別與各自的遺忘門向量組合,得到大區間的記憶向量ct:
其中,和分別為文字區間合并中的兩個小區間的記憶向量;⊙是向量的元素級乘法;
步驟2.6:生成合并出的文字區間的特征向量ht,具體為:
步驟2.6A計算輸出門系數ot,具體通過(7)計算:
其中,Wco分別為左邊特征向量的映射矩陣、右邊的特征向量、記憶向量的映射矩陣;bo為映射過程的偏置向量;Wco、bo都是模型的參數,通過訓練過程得到具體的取值;
步驟2.6B:通過(8)計算t位置的特征向量ht:
ht=ot⊙tanh(ct) (8)
其中,⊙是向量的元素級乘法,tanh(·)是雙曲正切函數;
步驟2.7:設定區間的最大長度L;
步驟2.8:重復進行步驟2.3~步驟2.6 L-1次,根據區間的長度從短到長生成所有區間的記憶和特征向量;
步驟3:生成句子的序列特征向量;
序列特征向量是指對于句子中的每一個字,都生成一個反映其上下文特征的特征向量;在樹狀網格記憶網絡中,為了充分利用語言的遞歸性質,在生成某一個字的記憶和特征時,會考慮多條可能路徑;具體包括以下子步驟:
步驟3.1:匹配每個字對應的文字區間;對于句子中的第b個字,找到所有以它為結尾的文字區間,每一個以該字為結尾的文字區間,都是一條生成當前字的記憶向量的路徑;
步驟3.2:通過(9)生成路徑記憶向量ca,b;對于一條從a到b的路徑,在a位置對應的記憶向量上融合文字區間特征,生成融合后的路徑記憶向量:
ca,b=tanh(Whcha,b+Weceb+bc) (9)
其中,Whc、Wec分別為從特征向量、嵌入向量到記憶向量的映射矩陣;ha,b表示從a到b路徑的特征向量,bc是記憶向量的偏置向量;映射矩陣和記憶向量具體的值通過訓練得到;
步驟3.3:通過(10),計算在多條路徑的記憶融合中,從a到b的路徑的輸入門向量:
ia,b=tanh(Whiha,b+Weieb+bi) (10)
其中,Whi、Wei分別為從特征向量、嵌入向量到輸入門向量的映射矩陣;bi是輸入門向量的偏置向量;映射矩陣和記憶向量具體的值通過訓練得到;
步驟3.4:通過(11),計算每一條路徑(a,b)的注意力系數向量αa,b;
其中,exp是指數函數,a′的含義是遍歷在所有以b為結尾的文字區間上進行的a;
步驟3.5;通過(12),對每一條路徑的記憶向量進行加權平均,得到當前字的記憶單元量cb:
cb=∑a′αa′,b⊙ca′,b (12)
由于該記憶向量cb來自于包括但不限于當前字的文本區間,而文本區間的記憶又來自遞歸的方法,因此當前字的記憶向量在總結上下文特征時考慮了自然語言內在的遞歸性質;注意力系數向量ca’,b及αa’,b中a′的含義是遍歷在所有以b為結尾的文字區間上進行的a;
步驟3.6:通過(13),對于b位置,在記憶向量基礎上,計算序列的輸出門向量ob:
ob=σ(Whohb-1+Weoeb-1+bo) (13)
其中,Who、Weo分別為從特征向量、嵌入向量到輸出門向量的映射矩陣;hb-1和eb-1分別表示b-1位置的特征向量和第b-1個字向量;bo是輸出門向量的偏置向量;映射矩陣和記憶向量具體的值通過訓練得到;
步驟3.7:通過(14),生成位置e的特征向量he:
he=oe⊙tanh(ce) (14)
其中,對于e位置,在記憶向量基礎上,計算序列的輸出門向量oe;當前字的記憶單元量ce;
步驟3.8:從句子開始位置到結束位置,循環執行步驟3.1~步驟3.7,對每個字的位置都生成特征向量,也就是提取了句子的序列特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911398270.1/1.html,轉載請聲明來源鉆瓜專利網。





