[發明專利]一種基于中文文本的水務領域知識圖譜構建方法在審
| 申請號: | 201810665703.4 | 申請日: | 2018-06-26 |
| 公開(公告)號: | CN108984647A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 呂田田;閆健卓 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖譜構建 圖譜 中文文本 分詞 領域知識 文本 概念詞 掛接 詞表 結構化數據庫 結構化知識 接口連接 詞組 結構化 停用詞 評估 詞庫 構建 權重 去除 融合 保留 | ||
本發明公開了一種基于中文文本的水務領域知識圖譜構建方法,包括在網上爬取大量水務文本,利用jieba分詞進行中文文本分詞,利用stopwords去詞表去除分詞后文本的停用詞,利用TF?IDF方法獲取每個概念詞的權重,設置一個閾值,保留大于閾值的概念詞組成水務概念詞庫。然后根據與CN?Dbprdia接口連接,獲取水務概念詞的上級概念,建立結構化水務知識圖譜。接著水務結構化知識圖譜掛接水務結構化數據庫表以及水務文本,完成最終的水務知識圖譜的構建。最后運用評估方法對掛接方法進行評估。本發明通過結合不同知識圖譜構建方法,充分考慮了知識圖譜之間的多種類型數據進行融合,能夠提高水務知識圖譜構建的效率,提高水務知識圖譜的完整性以及準確性。
技術領域
本發明涉及知識圖譜構建技術領域,涉及一種基于中文文本的水務領域知識圖譜構建方法,特別涉及一種基于TF-IDF權重計算方法、CN-Dbpedia等級關系組建方法以及編輯距離和LDA相似度計算掛接方法的水務文本領域知識圖譜構建方法。
背景技術
目前調研知識圖譜構建主要包含技術有:1)數據模式層融合:概念合并,概念上下位關系合并,概念的屬性合并,國內外研究學者在這些方面做出了很多貢獻。國內知識圖譜映射技術主要包括詞典wordnet、結構和基于實例的方法,以及使用背景知識和以前的知識找到匹配結果輸出。通常,兩個相關知識圖譜的匹配,輸出是由匹配知識圖譜概念之間的對應關系組成的知識圖譜映射,知識圖譜映射對于知識圖譜演化和不同的信息集成是有用的,例如知識圖譜集成。中國中南大學的Lily知識圖譜映射系統在近幾年發展較好。國外許多著名的大學和實驗室都對知識圖譜映射進行了相關的研究,已經開發出一些具體的映射系統和實現方法,如華盛頓大學研究的Glue系統的基于概念實例的方法,斯坦福大學的知識圖譜代數方法,馬里蘭大學的語義消解方法,M.Andrew等提出的利用概念定義的方法,Karlsruhe大學的KAON工程中的知識圖譜映射框架MAFRA。Juanzi Li等人針對知識圖譜對齊提出的Rimom框架,通過自動組合多種策略提高效果。Daniel Faria在2015年的OAEI中參賽的AML知識圖譜映射系統就是基于知識圖譜概念的知識圖譜映射系統。Rana Forsati等人提出了一種基于知識圖譜映射(HSOMAP)的方法等等;2)數據層融合:實體合并、實體屬性合并、沖突檢測與解決,國外Aidan Hogan等人對于大規模,靜態的關聯數據預料庫,討論了實體整合的可擴展和分布式方法。
但是這些方法應用于中文文本的水務領域知識圖譜構建效果不佳。
發明內容
有鑒于上述現有技術的不足,本發明的目的在于提供一種基于中文文本的水務領域知識圖譜構建方法,旨在解決智慧水務信息融合的問題。
本發明解決其技術問題所采取的技術方案是:一種中文文本的水務領域知識圖譜構建方法,該方法主要包括如下步驟:
步驟1:在java系統中構建水務概念詞庫,將構建的詞庫放入word文本中。
步驟2:將構建好的水務概念詞庫放入mysql數據庫中構建概念層次關系,并對不合理的信息進行修改。
步驟3:構建好的概念層次關系在protégé系統中實現可視化并掛接水務數據庫表以及水務文本,得到最終的水務領域知識圖譜。
進一步的,本發明步驟1所述的構建水務概念詞庫的方法,其步驟具體包括:
步驟1-1:使用python從水務博客以及水務文檔中爬取一些水務文本。
步驟1-2:用python中的jieba工具對抽取的水務文本進行文本分詞。
步驟1-3:用python中的stopwords工具對分詞后的文本進行停用詞去除,組成水務相關概念詞。
步驟1-4:用TF-IDF方法對水務相關概念詞分別進行權重計算,設置一個權重閾值,保留權重大于閾值的概念詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810665703.4/2.html,轉載請聲明來源鉆瓜專利網。





