[發明專利]一種技術標準知識圖譜的構建方法及系統在審
| 申請號: | 202011387180.5 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112395427A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 胡學勇;駱智鵬;潘格;楊洋;胡愛宇;李杰;王瑞杰;趙章;張榮;張溪石;李華勤;趙蕾;付蘭梅 | 申請(專利權)人: | 北京中電普華信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/279 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉樂 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 技術標準 知識 圖譜 構建 方法 系統 | ||
本發明公開了一種技術標準知識圖譜的構建方法及系統,基于技術標準文檔的格式,對技術標準文檔按照預設拆分標準進行拆解得到多個技術標準知識點文檔,對每個技術標準知識點文檔進行實體識別和句子切分,并對識別出的每個實體標注對應的實體相關信息得到目標實體,基于各個目標實體以及句子切分得到的各個技術標準知識點子文檔之間的關聯關系構建得到技術標準知識圖譜。本發明在構建技術標準知識圖譜之前,將技術標準文檔拆解為多個技術標準知識點文檔,通過對每個技術標準知識點文檔進行實體識別、實體標注以及句子切分,使得構建得到的技術標準知識圖譜可以精細描述技術標準文檔中各個實體的關聯關系,從而用戶可以快速提取到所需的知識點。
技術領域
本發明涉及互聯網技術領域,更具體的說,涉及一種技術標準知識圖譜的構建方法及系統。
背景技術
知識圖譜是一種基于圖的數據結構,本質上是語義網絡。知識圖譜旨在描述真實世界中存在的各種實體或概念及實體之間的關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。隨著計算機科學的發展,人工智能領域的興起,知識圖譜的應用也越發廣泛,如搜索領域的Google搜索、百度搜索等。
目前,技術標準知識圖譜的構建可以幫助用戶提高對技術標準信息搜索的速度,以及知識獲取的精準度,因此成為知識圖譜構建的一個重要研究方向。傳統的技術標準知識圖譜的構建,通常是將文檔數據整體直接入庫,文檔數據的精細程度不高,這樣,當用戶需要對文檔數據中的知識點進行提取時,通常還需要遍歷整個文檔數據。
發明內容
有鑒于此,本發明公開一種技術標準知識圖譜的構建方法及系統,以實現用戶在對文檔數據中的知識點進行提取時,可以快速提取到所需的知識點,并且無需遍歷整個文檔數據。
一種技術標準知識圖譜的構建方法,包括:
基于技術標準文檔的格式,對所述技術標準文檔按照預設拆分標準進行拆解,得到多個技術標準知識點文檔;
對每個所述技術標準知識點文檔進行實體識別,并對識別出的每個實體標注對應的實體相關信息得到目標實體;
對每個所述技術標準知識點文檔進行句子切分,得到多個技術標準知識點子文檔;
基于各個所述目標實體以及各個所述技術標準知識點子文檔之間的關聯關系,構建得到技術標準知識圖譜。
可選的,所述預設拆分標準包括:文檔來源、文檔名稱、文檔內容和三元組。
可選的,所述實體相關信息包括:業務專業實體內容、條件動作類以及約束中心類。
可選的,所述技術標準文檔的格式包括:范圍、規范性引用文件、總則和正文。
可選的,所述技術標準知識點文檔包括:范圍知識點文檔、規范性引用文件知識點文檔、總則知識點文檔和正文知識點文檔。
一種技術標準知識圖譜的構建系統,包括:
拆解單元,用于基于技術標準文檔的格式,對所述技術標準文檔按照預設拆分標準進行拆解,得到多個技術標準知識點文檔;
實體識別單元,用于對每個所述技術標準知識點文檔進行實體識別,并對識別出的每個實體標注對應的實體相關信息得到目標實體;
句子切分單元,用于對每個所述技術標準知識點文檔進行句子切分,得到多個技術標準知識點子文檔;
圖譜構建單元,用于基于各個所述目標實體以及各個所述技術標準知識點子文檔之間的關聯關系,構建得到技術標準知識圖譜。
可選的,所述預設拆分標準包括:文檔來源、文檔名稱、文檔內容和三元組。
可選的,所述實體相關信息包括:業務專業實體內容、條件動作類以及約束中心類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中電普華信息技術有限公司,未經北京中電普華信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387180.5/2.html,轉載請聲明來源鉆瓜專利網。





