[發明專利]基于語義句法交互網絡的知識圖譜關系數據抽取方法有效
| 申請號: | 202010006001.2 | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN111241295B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 劉振宇;張棟豪;郟維強;譚建榮 | 申請(專利權)人: | 浙江大學;武漢數字化設計與制造創新中心有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/211;G06F40/242;G06F40/295;G06F40/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 句法 交互 網絡 知識 圖譜 關系 數據 抽取 方法 | ||
本發明公開了一種基于語義句法交互網絡的知識圖譜關系數據抽取方法。主要步驟為:收集復雜裝備設計過程的設計文檔,由設計文檔的文本數據組建設計文檔語料庫;針對設計文檔文本數據進行文本預處理;建立基于語義句法多輪交互深度神經網絡的關系抽取模型;將預處理后的文本數據與關系類型標簽輸入到關系抽取模型中進行離線訓練;對待預測實體關系的文本數據進行預處理后,輸入至訓練好的關系抽取模型中,獲得預測的關系類別。本發明通過語義信息與句法信息的多輪交互,提高語義信息與句法信息的利用率,實現動態、深層次地挖掘對知識圖譜關系數據抽取有利的語義信息與句法信息,提高了模型的靈活性、泛化性以及準確性。
技術領域
本發明涉及了一種計算機大數據領域中的知識圖譜數據處理方法,尤其是涉及了一種基于語義句法交互網絡的復雜裝備設計過程設計知識圖譜實體關系抽取方法。
背景技術
復雜裝備設計過程會產生大量的需求分析文檔、設計說明書、設計手冊、性能分析文檔等非結構文本知識。有效的挖掘這些文本知識對后續設計過程產生重要的指導作用。其中挖掘設計過程設計文檔中的知識,涉及到的一個關鍵技術是挖掘設計文檔中所表達的知識實體之間的關系類別。
針對復雜裝備設計過程設計文檔的數據驅動的實體關系抽取方法目前主要分為兩大類:基于機器學習的方法以及基于深度學習的方法。基于機器學習的方法主要依賴于人工構建的特征、特征種子或特征模板,將文本語句轉換為特征向量。該類型的方法需要耗費大量的專家人力以及時間資源來構建領域之間難以共享的特征、特征種子或特征模板,因此往往效率較低且領域之間的泛化性差。目前隨著深度學習技術的發展以及計算機算力的提高,研究人員逐漸關注于使用端到端的模型處理自然語言問題,其中基于深度學習的端到端的實體關系抽取方法逐漸發展起來。這一類型的方法一方面可以降低復雜裝備設計文檔知識抽取過程中人工的參與程度,降低人力的成本。另一方面可以利用跨領域之間的知識,提高模型在設計文檔實體關系抽取任務上的表現。因此,本發明以深度學習為基礎,探索復雜裝備設計過程設計文檔實體關系抽取方法及裝置。
由于語句內部不止存在語義的依賴性,還存在句法的依賴性。因此當前存在很多研究人員探索在復雜裝備設計過程設計文檔實體關系抽取過程中,引入長文本語句詞組之間的句法依賴關系。然而,目前這一方向的研究還存在很多不足的地方。首先,目前存在的方法在引入句法信息時,往往需要對文本對應依存句法樹進行剪枝操作,導致很多句法信息的丟失。其次,目前存在的方法往往單獨考慮語義信息與句法信息,而沒有引入更深層次的語義與句法的交互信息,導致語句信息挖掘的不全面。最后,目前存在的方法往往直接將模型的輸出特征向量用于實體關系類別預測,而沒有很好地控制語義信息與句法信息的流動,導致預測過程中可能存在很多噪聲特征或無用特征。
發明內容
為了解決背景技術中存在的問題,本發明提出了一種基于語義句法交互網絡的知識圖譜關系數據抽取方法。該方法能克服上述已有方法的不足,引入語義信息與句法信息的交互過程,控制語義信息與句法信息的流動,提高設計文檔實體關系抽取準確率。且該方法能廣泛應用于各種復雜裝備的設計過程設計文檔實體關系抽取過程中。
為達到上述目的,本發明中模型的建立包括以下具體步驟:
S1.收集復雜裝備設計過程的設計文檔,由設計文檔的文本數據組建設計文檔語料庫;語料是指設計文檔中的文本數據。
S2.針對收集到的設計文檔的文本數據進行文本預處理;
S3.建立基于語義句法多輪交互深度神經網絡的實體關系抽取模型;
S4.針對復雜裝備設計過程的設計文檔的文本數據進行步驟S2預處理后的結果與文本數據已知的實體關系類別標簽輸入到基于語義句法多輪交互深度神經網絡的實體關系抽取模型中,離線訓練該實體關系抽取模型;
S5.針對包含兩個實體且存在待預測實體關系類別的文本,進行步驟S2預處理后,輸入至訓練好的基于語義句法多輪交互深度神經網絡中,在線預測獲得文本數據中關鍵詞文本對應的實體關系類別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學;武漢數字化設計與制造創新中心有限公司,未經浙江大學;武漢數字化設計與制造創新中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010006001.2/2.html,轉載請聲明來源鉆瓜專利網。





