[發明專利]實體關系的抽取方法、裝置、存儲介質及計算機設備在審
| 申請號: | 202210208071.5 | 申請日: | 2022-03-04 |
| 公開(公告)號: | CN114626373A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 羅琴;唐光遠;李潤靜;張俊杰;熊瓊 | 申請(專利權)人: | 珠海格力電器股份有限公司;珠海聯云科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06F40/30 |
| 代理公司: | 廣東朗乾律師事務所 44291 | 代理人: | 楊煥軍 |
| 地址: | 519070*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 關系 抽取 方法 裝置 存儲 介質 計算機 設備 | ||
本申請實施例公開了一種實體關系的抽取方法、裝置、存儲介質及計算機設備,涉及文本處理領域。本申請基于深度學習的方法訓練模型和抽取實體關系,相對于現有技術中的基于人工詞典和規則方法抽取實體關系來說,可以減少人工標注的工作量,提高實體關系抽取的效率和準確性。
技術領域
本申請涉及文本處理領域,尤其涉及一種實體關系的抽取方法、裝置、存儲介質及計算機設備。
背景技術
企業對外采購物料之前,需要將接線圖紙形成核價BOM表,此過程依賴大量人工作業,具有耗時耗力的問題,為解決該問題相關技術利用人工智能的語義分析與圖片分析等技術結合完成接線圖的原材料提取與用量統計。一段新聞或者文字中獲取自己需要的且重要的信息以及它們之間存在的關系,因此關系抽取就顯得十分重要,便于快速從文本中檢索出我們需要的關鍵信息,而且能識別出它們之間的對應關系。這對于工業文件的數據挖掘和知識發現研究的展開有著重要意義和研究價值。所以關系抽取就可以應用到接線圖紙形成核價BOM表這個項目中。
早期實體關系抽取均是基于人工詞典和規則的方法,這類方法需要耗費大量的人工作業進行標注,且實體關系抽取的效率和準確性不高。
發明內容
本申請實施例提供了實體關系的抽取方法、裝置、存儲介質及計算機設備,可以解決現有技術中抽取實體關系存在效率不高和準確性不高的問題。所述技術方案如下:
第一方面,本申請實施例提供了一種實體關系的抽取方法,所述方法包括:
對工業文本文件進行數據清洗和分句得到得到多個語句;
對所述語句進行真實實體關系的標注得到標注語句;
將所述標注語句輸入到ELECTRA預訓練模型得到詞向量;
將所述詞向量輸入到BiGRU模型得到中間向量;
將所述中間向量輸入到CNN模型得到文本特征向量;
通過全連接層中的softmax分類器對所述文本特征向量進行處理得到所述語句的預測實體關系;
計算所述預測實體關系和真實實體關系之間的誤差;
根據所述誤差更新所述ELECTRA預訓練模型的網絡權重得到目標ELECTRA模型;
部署所述目標ELECTRA模型;
完成部署后,利用所述目標ELECTRA模型抽取待識別工業文本文件的實體關系。
第二方面,本申請實施例提供了一種實體關系的抽取裝置,所述裝置包括:
預處理單元,用于對工業文本文件進行數據清洗和分句得到得到多個語句;
標注單元,用于對所述語句進行真實實體關系的標注得到標注語句;
向量生成單元,用于將所述標注語句輸入到ELECTRA預訓練模型得到詞向量;
所述向量生成單元,還用于將所述詞向量輸入到BiGRU模型得到中間向量;
所述向量生成單元,還用于將所述中間向量輸入到CNN模型得到文本特征向量;
預測單元,用于通過全連接層中的softmax分類器對所述文本特征向量進行處理得到所述語句的預測實體關系;
計算單元,用于計算所述預測實體關系和真實實體關系之間的誤差;
更新單元,用于根據所述誤差更新所述ELECTRA預訓練模型的網絡權重得到目標ELECTRA模型;
部署單元,用于部署所述目標ELECTRA模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海格力電器股份有限公司;珠海聯云科技有限公司,未經珠海格力電器股份有限公司;珠海聯云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210208071.5/2.html,轉載請聲明來源鉆瓜專利網。





