[發明專利]用于綜合管廊領域的實體信息抽取及知識圖譜構建方法有效
| 申請號: | 202010701527.2 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111897914B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 朱安安;邱彥林;陳尚武 | 申請(專利權)人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/211;G06F40/295 |
| 代理公司: | 杭州易中元兆專利代理有限公司 33341 | 代理人: | 葉衛強 |
| 地址: | 311121 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 綜合 領域 實體 信息 抽取 知識 圖譜 構建 方法 | ||
本發明提供用于綜合管廊領域的實體信息抽取及知識圖譜構建方法,基于已有綜合管廊結構化數據和互聯網數據生成綜合管廊相關數據,獲取的數據通過收集、清洗、分析、匯總、入庫等工作后形成綜合管廊網絡知識庫;根據上述采集的數據信息,選取部分數據作為訓練集進行標注訓練,建立NLP模型;通過人工篩選標注的方式進行標注,作為訓練數據。采用本發明的技術方案,通過對相關網站、論壇等的信息獲取,得到綜合管廊相關的數據資料,構建基于語義分析和屬性分類的三元組抽取模型,將抽取的三元組通過圖數據庫的形式存儲,并通過預設算法予以展示,形成綜合管廊的行業知識圖譜;本發明提供的技術方案還可以從綜合管廊行業泛化到其他行業中。
技術領域
本發明涉及知識圖譜構建技術領域,尤其是涉及用于綜合管廊領域的實體信息抽取及知識圖譜構建方法。
背景技術
知識圖譜本質上是一種語義網絡的知識庫,是一種基于圖的數據結構,由節點和邊組成。近年來,知識圖譜與自然語言處理及搜索技術的結合越來越廣泛,知識圖譜是關系的最有效表述方式,將不同種類的信息相連接從而得到一個實體之間的關系網絡,提供了從“關聯關系”的角度去分析問題的方式。
現有技術的缺陷和不足:目前,由于綜合管廊行業起步較晚,知識圖譜在綜合管廊行業的應用還是一片空白,而管廊行業復雜的設計施工以及各個管網的相互合作卻更需要這種基于關系的知識網絡來幫助人們進行更加完善系統的規劃建設。鑒于此,需要一種或多種方法針對管廊這一特定行業進行實體抽取與知識圖譜的建立。
發明內容
本發明要解決的問題是綜合管廊領域實體關系抽取與知識圖譜體系空白的問題,為解決上述技術問題,本發明提供了一種用于綜合管廊領域的實體信息抽取及知識圖譜構建方法,用以構建更為完善的綜合管廊的關系圖譜。
為實現上述目的,本發明提供了一種用于綜合管廊領域的實體信息抽取及知識圖譜構建方法,包括如下步驟:
步驟(1)、數據采集:
基于已有綜合管廊結構化數據和互聯網數據生成綜合管廊相關數據,這些數據包括已有相關設施設備等的結構化數據,以及通過爬蟲在相關政府網站、綜合管廊類網站、施工等相關網站采集的綜合管廊相關文檔信息;這些綜合管廊相關文檔信息包括規劃類文檔信息、設計文檔、施工文檔、法律法規、政策標準、期刊、專利、報告、百科以及相關新聞等;獲取的數據通過收集、清洗、分析、匯總、入庫等工作后形成綜合管廊網絡知識庫;
步驟(2)、數據標注訓練:
根據上述步驟(1)采集的數據信息,選取部分數據作為訓練集進行標注訓練,建立NL?P模型;
通過人工篩選標注的方式進行標注,作為訓練數據。
需說明:在人工標注過程中,對管廊行業相關詞進行特殊標注以便后續可根據詞性抽取實體,取“隧道”的英文“tunnel”的前三個字母“tun”作為管廊相關詞的特殊詞性,方便與其他詞性進行區分,;
確定各個實體的屬性分類,在考慮了管廊的特性后暫規劃的實體屬性有包含名詞解釋、實體設計、實體施工、實體運維要求、優缺點等在內的共11種屬性以及父、子關系從屬的上下級關系;
運用BERT模型對標注數據進行訓練,最后用訓練好的模型對所有文檔進行詞性標注;
步驟(3)、實體屬性分類:
建立句子屬性分類模型,對符合三元組抽取的句子進行實體屬性分類,得到該被分析句子所包含實體的屬性為哪一種;
步驟(4)、實體抽取:
建立基于語義角色和依存句法關系的三元組抽取模型,將綜合管廊數據通過預設模型抽取相關的實體,并分別抽取所述實體的基本屬性及實體之間的關系;其中抽取的實體包括實體名稱、基本屬性以及所屬文檔id;
三元組抽取模型的抽取過程具體如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州敘簡科技股份有限公司,未經杭州敘簡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010701527.2/2.html,轉載請聲明來源鉆瓜專利網。





