[發(fā)明專利]一種從多源數(shù)據(jù)集成視角構(gòu)建企業(yè)知識(shí)圖譜的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811060811.5 | 申請(qǐng)日: | 2018-09-12 |
| 公開(公告)號(hào): | CN109284394A | 公開(公告)日: | 2019-01-29 |
| 發(fā)明(設(shè)計(jì))人: | 云紅艷;賀英;林莉;張秀華;胡歡 | 申請(qǐng)(專利權(quán))人: | 青島大學(xué) |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/953;G06F16/958;G06N5/02 |
| 代理公司: | 北京匯捷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 266071 *** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖譜 構(gòu)建 企業(yè)知識(shí) 多源數(shù)據(jù) 企業(yè)數(shù)據(jù) 圖譜構(gòu)建 知識(shí)庫 多源異構(gòu)數(shù)據(jù) 企業(yè)信息服務(wù) 應(yīng)用檢索系統(tǒng) 視角 存儲(chǔ)過程 快速構(gòu)建 領(lǐng)域本體 領(lǐng)域知識(shí) 數(shù)據(jù)獲取 數(shù)據(jù)節(jié)點(diǎn) 用戶提供 政府部門 知識(shí)加工 知識(shí)融合 人性化 建模 存儲(chǔ) 孤立 互聯(lián)網(wǎng) 融合 統(tǒng)一 | ||
1.一種從多源數(shù)據(jù)集成視角構(gòu)建企業(yè)知識(shí)圖譜的方法,其特征在于:基于本體建模和Karma建模實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)集成的視角快速構(gòu)建企業(yè)知識(shí)圖譜可以分為數(shù)據(jù)獲取、知識(shí)融合和知識(shí)加工存儲(chǔ);
其中,數(shù)據(jù)獲取方法為:數(shù)據(jù)集一部分來自政府的關(guān)系數(shù)據(jù)庫,另一部分通過構(gòu)建網(wǎng)頁爬蟲抽取百度百科中相關(guān)的企業(yè)信息數(shù)據(jù),數(shù)據(jù)采用JSON格式存儲(chǔ),針對(duì)百科類網(wǎng)頁數(shù)據(jù)的抽取,構(gòu)建一套基于WebMagic框架的企業(yè)爬蟲系統(tǒng),通過編寫正則表達(dá)式來獲取網(wǎng)頁中需要的企業(yè)信息數(shù)據(jù),爬蟲系統(tǒng)框架包括以下四個(gè)組件:下載器、頁面解析器、調(diào)度器、管道組件,在Spider容器中,將這幾個(gè)組件組織起來,通過相互交互和流程化的執(zhí)行,根據(jù)具體需求完成數(shù)據(jù)抽取;
知識(shí)融合方法:針對(duì)多源異構(gòu)的結(jié)構(gòu)化數(shù)據(jù)集,提出了基于企業(yè)法人本體的數(shù)據(jù)集成方法,對(duì)獲取到的數(shù)據(jù)集進(jìn)行分析和整理,抽取出實(shí)體類、對(duì)象屬性和數(shù)據(jù)屬性本體的相關(guān)概念,完成企業(yè)領(lǐng)域本體的構(gòu)建,利用本體構(gòu)建Karma模型進(jìn)行多源數(shù)據(jù)的快速集成與融合;
知識(shí)加工方法:推理引擎完成企業(yè)法人本體和集成發(fā)布的企業(yè)RDF數(shù)據(jù)的上下位推理、缺失類別補(bǔ)全、一致性檢測和自定義規(guī)則推理四大功能,對(duì)已有知識(shí)進(jìn)行補(bǔ)全和修正;
知識(shí)存儲(chǔ)方法:采用Neo4j圖數(shù)據(jù)庫對(duì)知識(shí)圖譜進(jìn)行持久化存儲(chǔ),通過構(gòu)建RDF2Neo4j解釋器,將RDF三元組數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫中進(jìn)行存儲(chǔ)。
2.按照權(quán)利要求1所述一種從多源數(shù)據(jù)集成視角構(gòu)建企業(yè)知識(shí)圖譜的方法,其特征在于:所述企業(yè)爬蟲系統(tǒng)的工作流程:第一步,針對(duì)政府提供的部分企業(yè)數(shù)據(jù)進(jìn)行解析,抽取其中的企業(yè)實(shí)體名稱,利用百度百科提供統(tǒng)一的API接口,自動(dòng)拼接初始URL;
第二步,下載器使用Apache HttpClient作為下載組件對(duì)提供的初始URL發(fā)起請(qǐng)求,獲取網(wǎng)頁對(duì)象Page;
第三步,頁面解析器采用pageProcessor中的process方法對(duì)網(wǎng)頁進(jìn)行解析,使用jsoup解析HTML頁面成DOM樹,通過CSS Selector抽取有用的信息資源以及發(fā)現(xiàn)新的種子URL,針對(duì)百度百科的企業(yè)詞條,主要抽取詞條標(biāo)題、InfoBox和詞條概述三個(gè)部分;
第四步,調(diào)度器負(fù)責(zé)管理待抓取的URL以及去重操作;
第五步,管道器負(fù)責(zé)處理抽取的網(wǎng)頁數(shù)據(jù),主要包括保存數(shù)據(jù)到文件或數(shù)據(jù)庫。
3.按照權(quán)利要求1所述一種從多源數(shù)據(jù)集成視角構(gòu)建企業(yè)知識(shí)圖譜的方法,其特征在于:所述Karma的建模方法:
第一步是導(dǎo)入構(gòu)建的企業(yè)法人本體和多源異構(gòu)的結(jié)構(gòu)化數(shù)據(jù)集,支持導(dǎo)入的數(shù)據(jù)格式包括電子表格、關(guān)系數(shù)據(jù)庫、XML、CSV、JSON;
第二步是清洗規(guī)范數(shù)據(jù),確保數(shù)據(jù)格式和內(nèi)容的完整性;
第三步是設(shè)置數(shù)據(jù)列的語義類型,導(dǎo)入本體之后,需要在本體與不同數(shù)據(jù)源之間建立語義映射,解決一詞多義或多詞一義語義異構(gòu)問題;
第四步是指定語義類型之間的關(guān)系,根據(jù)本體和設(shè)置的數(shù)據(jù)列語義類型構(gòu)建節(jié)點(diǎn)之間的語義關(guān)聯(lián)圖。
4.按照權(quán)利要求1所述一種從多源數(shù)據(jù)集成視角構(gòu)建企業(yè)知識(shí)圖譜的方法,其特征在于:所述采用Jena推理引擎進(jìn)行知識(shí)圖譜上下位推理、缺失類別補(bǔ)全、一致性檢測和自定義規(guī)則推理進(jìn)行知識(shí)補(bǔ)全和修正的具體方法:①引入RDFS推理機(jī),利用RDFS中subClassOf關(guān)鍵字進(jìn)行概念之間上下位關(guān)系推理;②引入OWL推理機(jī)對(duì)個(gè)體類別做完整性推理,補(bǔ)全個(gè)體的缺失類別;③通過Jena提供的validate檢測本體的不一致性,生成檢測報(bào)告并打印不一致實(shí)例的具體信息;④采用SWRL(Semantic Web Rule Language)描述用戶自定義規(guī)則,用戶通過定義推理規(guī)則庫來實(shí)現(xiàn)規(guī)則推理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于青島大學(xué),未經(jīng)青島大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811060811.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法
- 一種基于核心流程和核心知識(shí)的企業(yè)關(guān)鍵文檔管理方法
- 一種企業(yè)稅務(wù)知識(shí)管理平臺(tái)
- 中文企業(yè)名稱的識(shí)別方法
- 一種基于知識(shí)圖譜的企業(yè)風(fēng)險(xiǎn)預(yù)測方法及系統(tǒng)
- 一種面向企業(yè)數(shù)據(jù)的搜索領(lǐng)域知識(shí)圖譜構(gòu)建方法及系統(tǒng)
- 一種企業(yè)知識(shí)培訓(xùn)管理系統(tǒng)
- 一種應(yīng)用于企業(yè)知識(shí)共享平臺(tái)
- 企業(yè)隱患和事故知識(shí)圖譜構(gòu)建方法、電子設(shè)備、存儲(chǔ)介質(zhì)
- 企業(yè)知識(shí)地圖的構(gòu)建方法及相關(guān)裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 企業(yè)價(jià)值之輪模型
- 用于根據(jù)客戶驅(qū)動(dòng)的查詢來提供增強(qiáng)匹配的方法和系統(tǒng)
- 一種新穎的多源數(shù)據(jù)模糊聚類算法
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 一種船端多源PNT融合與評(píng)估系統(tǒng)
- 電網(wǎng)自動(dòng)化系統(tǒng)多源數(shù)據(jù)接入及展示方法
- 一種工廠多源能耗數(shù)據(jù)并行處理系統(tǒng)及方法
- 用于配電網(wǎng)多源數(shù)據(jù)庫的高吞吐率數(shù)據(jù)處理方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種多源數(shù)據(jù)報(bào)表的生成方法、系統(tǒng)以及執(zhí)行方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置





