[發明專利]一種文本語義關系提取方法及系統在審

申請號：	201911412034.0	申請日：	2019-12-31
公開（公告）號：	CN111221966A	公開（公告）日：	2020-06-02
發明（設計）人：	徐家慧;張曉營;武毅;林海峰;殷智;王剛;王燕	申請（專利權）人：	北京科東電力控制系統有限責任公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京縱橫知識產權代理有限公司 32224	代理人：	董建林
地址：	100192 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本語義關系提取方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本語義關系提取方法，其特征在于，

獲取文本信息，將文本信息向量化，提取文本局部特征；

將文本局部特征輸入至預先訓練好的雙向LSTM模型，引入注意力機制對雙向LSTM模型的輸入與輸出之間的相關性進行重要度計算，根據重要度確定文本整體特征；

將局部特征和整體特征進行特征融合，通過分類器輸出分類結果。

2.根據權利要求1所述的文本語義關系提取方法，其特征在于，所述雙向LSTM模型的訓練過程為：

獲取LSTM訓練樣本，采集電網調度日檢修申請票數據和調度日志，作為LSTM訓練樣本；

使用LSTM訓練樣本訓練雙向LSTM模型：

其中，i_t，f_t，c_t，o_t，h_t分別是LSTM的輸入門，遺忘門，記憶，輸出門和隱藏狀態的變量，g_t表示當前輸入的單元狀態，σ表示邏輯sigmoid激活函數，tanh表示輸出的激活函數，T_D+m+n，n表示用學習到的參數所定義的實數空間RD+m+n到Rn的仿射變換，D表示提取器提取的樣本向量維度，m和n分別表示嵌入矩陣和LSTM網絡矩陣維度，E表示嵌入矩陣，E∈R^m*K，R表示實數集合，K表示樣本詞匯量，y_t-1表示前一時刻的語義釋義中間變量，表示隨機變量，z是上下文向量，z∈R^D；

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_ttanh(c_t)

⊙表示元素乘法，c_t-1為注意力模型上一時刻狀態。

3.根據權利要求2所述的文本語義關系提取方法，其特征在于，通過下式確定c_t，

其中，

a_tj為注意力機制給所有特征向量賦予的權重，h_j為LSTM神經網絡輸出的特征向量序列，T表示特征向量總數，j表示第j個特征向量，exp(e_tj)表示以自然常數e為底的指數函數，e_tj表示輸出特征值是對齊模型，代表時刻t的輸入和時刻j的輸出匹配程度的分數，e_tk同理，a表示計算e_tj的函數，v_a為全局的權值，w_a為上一時刻注意力機制的狀態的權值，u_a為上一時刻的特征向量的權值。

4.一種文本語義關系提取系統，其特征在于，包括獲取模塊、確定模塊和輸出模塊；

所述括獲取模塊，用于獲取文本信息，將文本信息向量化，提取文本局部特征；

所述確定模塊，用于將文本局部特征輸入至預先訓練好的雙向LSTM模型，引入注意力機制對雙向LSTM模型的輸入與輸出之間的相關性進行重要度計算，根據重要度確定文本整體特征；

所述輸出模塊，用于將局部特征和整體特征進行特征融合，通過分類器輸出分類結果。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京科東電力控制系統有限責任公司，未經北京科東電力控制系統有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911412034.0/1.html，轉載請聲明來源鉆瓜專利網。