[發(fā)明專利]太赫茲知識圖譜構建方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010913050.4 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN111813874B | 公開(公告)日: | 2023-09-15 |
| 發(fā)明(設計)人: | 蔡娟娟;陳蝶榕;李傳珍;吳曉潔;王暉 | 申請(專利權)人: | 中國傳媒大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/35;G06F16/36;G06F40/295;G06F18/25;G06N3/048;G06N3/0442;G06N3/09 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 張超艷;董永輝 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 赫茲 知識 圖譜 構建 方法 系統(tǒng) | ||
本發(fā)明提供一種太赫茲知識圖譜構建方法及系統(tǒng),包括:數據采集,構建知識圖譜的整體框架,從數據源采集所述整體框架相關的信息,所述整體框架包括實體類別、屬性類別及各實體類別間的關系;知識抽取,對采集的信息根據所述整體框架進行數據抽取;知識融合,對整體框架及其對應的抽取的數據進行融合,形成知識圖譜。上述太赫茲知識圖譜構建方法及系統(tǒng)構建太赫茲知識圖譜的整體框架,通過數據采集、知識抽取和知識融合準確全面的獲得太赫茲領域知識圖譜。
技術領域
本發(fā)明涉及知識圖譜技術領域,更具體地,涉及一種太赫茲知識圖譜構建方法及系統(tǒng)。
背景技術
近年來,隨著鏈接開放數據源(如Wikipedia)的出現(xiàn),以及Google于2012年首次提出“知識圖譜”這一概念,以圖形表示通用世界知識引起了各方的關注。知識圖譜具有能夠通過將應用數學、信息可視化技術等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結合,利用可視化的圖譜形象地展示學科的核心結構、發(fā)展歷史、前沿領域以及整體知識架構,揭示知識領域的動態(tài)發(fā)展規(guī)律的特點,通過知識圖譜技術,可以挖掘更多的事物間的關聯(lián)關系,同時知識圖譜技術也是知識驅動型智能技術的基礎。目前,這一新興技術的研究正在如火如荼地開展中,以通用領域知識圖譜為例:Yahoo和Google的圖譜在語義搜索上已經得到了很好的應用;IBM的Watson和Wolfram的Alpha在智能問答方面展現(xiàn)出了卓越的性能;國內美團、阿里巴巴等商業(yè)公司的餐飲、電商知識圖譜在推薦系統(tǒng)等方面也得到了很好的應用。同時,在行業(yè)知識圖譜方面也有大量相關的研究,如:華東師范大學提出的農業(yè)領域知識圖譜、中國中醫(yī)科學院中醫(yī)藥信息研究所提出的中醫(yī)藥知識圖譜、上海交通大學提出的Acemap等。
現(xiàn)有的學術領域知識圖譜的構建都是從文獻出發(fā),主要側重于文獻、文獻作者、文獻發(fā)表機構信息的整合與挖掘,而沒有學術信息與研發(fā)信息結合的圖譜構建。對于研究者來說,在進行產、學、研結合的相關工作時,使用這種圖譜在信息的獲取上比較局限。同時,對于從事相關工作的非學術人員來說,這種圖譜適用性比較低。
發(fā)明內容
鑒于上述問題,本發(fā)明提供一種適用于太赫茲領域的太赫茲知識圖譜構建方法及系統(tǒng)。
根據本發(fā)明的一個方面,提供一種太赫茲知識圖譜構建方法,包括:
數據采集,包括:構建知識圖譜的整體框架,所述整體框架包括實體類別、屬性類別及各實體類別間的關系,將實體類別劃分為第一實體類別、第二實體類別和第三實體類別,第一實體類別是從數據源直接采集所有實體屬性信息的實體類別,第二實體類別是從第一實體類別采集到的信息中抽取得到實體,而后通過第三方數據源進一步擴充實體屬性的實體類別,第三實體類別為根據現(xiàn)有信息給定的實體,按照是否存在子實體類別分別將第二實體類別和第三實體類別劃分為第二單實體類別、第二多實體類別、第三單實體類別和第三多實體類別,通過第一實體類別對應數據源采集信息,其中,實體是客觀存在并可相互區(qū)分的事物,所述實體類別是同類實體的集合,所述屬性類別是一個類別的實體具有的屬性信息,所述實體類別間的關系是設定的實體類別間符合語義邏輯的關系;
知識抽取,對采集的信息根據所述整體框架進行數據抽取;
知識融合,對整體框架及其對應的抽取的數據進行融合,形成知識圖譜;
其中,所述知識抽取的步驟包括:
實體抽取,基于整體框架中實體類別間的關系,找到與采集信息對應的第一實體類別有關系的其他第一實體類別、第二單實體類別和第三單實體類別,根據第一實體類別、第二單實體類別和第三單實體類別的屬性類別對采集的信息進行實體抽取,包括:將采集的信息中的數據進行分類,所述分類包括結構化數據、半結構化數據和非結構化數據;對于結構化數據通過其數據字段得到實體;對于非結構化數據基于規(guī)則的最大正向匹配法識別實體;對于半結構化的數據采用基于正則表達式和模板的方式提取實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國傳媒大學,未經中國傳媒大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010913050.4/2.html,轉載請聲明來源鉆瓜專利網。





