[發明專利]標準知識圖譜構建、標準查詢方法及裝置有效
| 申請號: | 202110337471.1 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112732945B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 郝文建;王立璽;胡晨;高艷炫 | 申請(專利權)人: | 中國電子技術標準化研究院;北京賽西科技發展有限責任公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 100007 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標準 知識 圖譜 構建 查詢 方法 裝置 | ||
本發明提供一種標準知識圖譜構建、標準查詢方法及裝置,所述標準知識圖譜構建方法包括:基于結構化模板,對樣本標準文本數據中的標準要素進行數據抽取,得到第一抽取數據;基于樣本標準文本數據攜帶的非標要素標簽,對樣本標準文本數據中的非標要素進行數據抽取,得到第二抽取數據;分別對第一抽取數據和第二抽取數據進行實體鏈接,構建標準知識圖譜。本發明通過對樣本標準文本數據的標準要素進行數據抽取,以及對樣本標準文本數據中的非標要素進行數據抽取構建標準知識圖譜,從而可以快速基于標準知識圖譜準確獲取標準的相關數據信息,避免傳統方法中需要人工閱讀提取標準數據信息導致效率較低的問題。
技術領域
本發明涉及計算機技術領域,尤其涉及一種標準知識圖譜構建、標準查詢方法及裝置。
背景技術
標準是對重復性事物和概念所做的統一規定,它以科學、技術和實踐經驗的綜合為基礎,作為共同遵守的準則和依據。標準的制定和類型按內容劃分有基礎標準(一般包括名詞術語、符號、代號、機械制圖、公差與配合等)、產品標準、輔助產品標準(工具、模具、量具、夾具等)、原材料標準、方法標準(包括工藝要求、過程、要素、工藝說明等)。
在對標準進行查詢或宣貫學習時,目前多采用在標準文檔(如PDF文檔)中輸入關鍵字,定位到文檔中關鍵字所處的位置,然后人工閱讀文檔上下文提取相關數據信息,但該方法在每次需要進行標準查詢或宣貫時,均需人工重復閱讀提取相關數據信息,效率較低。
發明內容
本發明提供一種標準知識圖譜構建、標準查詢方法及裝置,用以解決現有技術中提取標準中的數據信息效率低下的缺陷。
本發明提供一種標準知識圖譜構建方法,包括:
獲取樣本標準文本數據;
基于結構化模板,對所述樣本標準文本數據中的標準要素進行數據抽取,得到第一抽取數據;
基于所述樣本標準文本數據攜帶的非標要素標簽,對所述樣本標準文本數據中的非標要素進行數據抽取,得到第二抽取數據;
分別對所述第一抽取數據和所述第二抽取數據進行實體鏈接,構建標準知識圖譜。
根據本發明提供的一種標準知識圖譜構建方法,所述結構化模板包括標準文本中各標準要素的位置信息;
所述基于結構化模板,對所述樣本標準文本數據中的標準要素進行數據抽取,得到第一抽取數據,包括:
基于所述標準文本中各標準要素的位置信息,對所述樣本標準文本數據中的標準要素進行數據抽取,得到所述第一抽取數據。
根據本發明提供的一種標準知識圖譜構建方法,所述分別對所述第一抽取數據和所述第二抽取數據進行實體鏈接,包括:
基于所述第一抽取數據的標準要素標簽,對所述第一抽取數據進行實體鏈接,所述標準要素標簽是基于所述第一抽取數據在所述樣本標準文本數據中的位置,以及所述結構化模板確定的;
基于所述第二抽取數據的非標要素標簽,對所述第二抽取數據進行實體鏈接。
根據本發明提供的一種標準知識圖譜構建方法,所述標準要素包括標準名稱、標準章節、標準起草單位、標準指標以及標準術語中的至少一種。
根據本發明提供的一種標準知識圖譜構建方法,在分別對所述第一抽取數據和所述第二抽取數據進行實體鏈接之后,還包括:
基于SQL腳本,將所述實體鏈接導入至所述標準知識圖譜的數據庫。
本發明還提供一種標準知識圖譜構建裝置,包括:
獲取單元,用于獲取樣本標準文本數據;
第一抽取單元,用于基于結構化模板,對所述樣本標準文本數據中的標準要素進行數據抽取,得到第一抽取數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子技術標準化研究院;北京賽西科技發展有限責任公司,未經中國電子技術標準化研究院;北京賽西科技發展有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337471.1/2.html,轉載請聲明來源鉆瓜專利網。





