[發明專利]一種文本語義關系提取方法及系統在審
| 申請號: | 201911412034.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111221966A | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 徐家慧;張曉營;武毅;林海峰;殷智;王剛;王燕 | 申請(專利權)人: | 北京科東電力控制系統有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 語義 關系 提取 方法 系統 | ||
本發明公開了一種文本語義關系提取方法及系統,獲取文本信息,將文本信息向量化,提取文本局部特征;將文本局部特征輸入至預先訓練好的雙向LSTM模型,引入注意力機制對雙向LSTM模型的輸入與輸出之間的相關性進行重要度計算,根據重要度獲取文本整體特征;將局部特征和整體特征進行特征融合,通過分類器輸出分類結果。優點:基于長短期記憶模型(LSTM)網絡,并引入注意力機制算法,采用LSTM模型來避免CNN和RNN的長距離依賴問題,并采用注意力機制更好地考慮了模型輸入和輸出的相關性問題,充分提取文本局部特征對實體概念進行提取,提升電網檢修本體概念提取的速度和準確率。
技術領域
本發明涉及一種文本語義關系提取方法及系統,屬于本體概念提取技術領 域。
背景技術
隨著網絡技術的快速發展,互聯網為人們創造了一個很好的交互平臺。如 何有效地在海量的網絡大數據中為用戶提取出有價值的信息,也面臨著巨大的 挑戰。基于語義的信息處理能有效地解決上述問題。作為一種共享的概念化模 型,本體在語義分析中起著至關重要的作用。領域本體學習是一種針對特定的 領域自動的獲取該領域本體中的概念和概念間關系的學習方法,隨著電網行業 與互聯網信息技術的迅速發展,電網檢修對領域本體的自動學習提出了更高、 更大的需求。
在我國電網檢修領域,一些研究人員已將本體和語義網技術應用于電網檢 修應急管理領域,通過“領域詞典”構建了應急決策領域本體,該本體以領域 本體為基礎,通過基于語義查詢轉換和語義檢索與推理實現了應急檢修初始方 案的生成,提高了應急決策的智能性。
隨著時代的進步和發展,現有的領域本體已經不足以支持電網檢修領域知 識的表達,豐富領域本體知識并提升本體提取的準確率已經成為一個迫切需要 解決的問題。另外,手工進行本體構建是一個既費時又低效的工作,如何有效 的提高本體自動更新的效率是當前需要克服的技術難題。
發明內容
本發明所要解決的技術問題是克服現有技術的缺陷,提供一種文本語義關 系提取方法及系統。
為解決上述技術問題,本發明提供一種文本語義關系提取方法,
獲取文本信息,將文本信息向量化,提取文本局部特征;
將文本局部特征輸入至預先訓練好的雙向LSTM模型,引入注意力機制對 雙向LSTM模型的輸入與輸出之間的相關性進行重要度計算,根據重要度確定 文本整體特征;
將局部特征和整體特征進行特征融合,通過分類器輸出分類結果。
進一步的,所述雙向LSTM模型的訓練過程為:
獲取LSTM訓練樣本,采集電網調度日檢修申請票數據和調度日志,作為 LSTM訓練樣本;電網調度日檢修申請票和調度日志可以從調度系統中獲得,針 對一張檢修票或調度日志,應該收集的數據包括:設備信息、設備參數、故障 信息、檢修方式等;
使用LSTM訓練樣本訓練雙向LSTM模型:
其中,it,ft,ct,ot,ht分別是LSTM的輸入門,遺忘門,記憶,輸出門 和隱藏狀態的變量,gt表示當前輸入的單元狀態,σ表示邏輯sigmoid激活函數, tanh表示輸出的激活函數,TD+m+n,n表示用學習到的參數所定義的實數空間 RD+m+n到Rn的仿射變換,D表示提取器提取的樣本向量維度,m和n分別 表示嵌入矩陣和LSTM網絡矩陣維度,E表示嵌入矩陣,E∈Rm*K,R表示實數 集合,K表示樣本詞匯量,yt-1表示前一時刻的語義釋義中間變量,表示隨機 變量,z是上下文向量,z∈RD;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科東電力控制系統有限責任公司,未經北京科東電力控制系統有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911412034.0/2.html,轉載請聲明來源鉆瓜專利網。





