[發(fā)明專利]一種基于大數(shù)據(jù)技術的全球智庫數(shù)據(jù)開發(fā)與組織方法在審
| 申請?zhí)枺?/td> | 201910188355.0 | 申請日: | 2019-03-13 |
| 公開(公告)號: | CN109933693A | 公開(公告)日: | 2019-06-25 |
| 發(fā)明(設計)人: | 姜開學;鄧代海;魏姚 | 申請(專利權)人: | 重慶尚唯信息技術有限公司 |
| 主分類號: | G06F16/90 | 分類號: | G06F16/90;G06F16/906;G06F16/903 |
| 代理公司: | 重慶啟恒騰元專利代理事務所(普通合伙) 50232 | 代理人: | 趙晨宇 |
| 地址: | 401144 重慶市*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)開發(fā) 成品數(shù)據(jù) 大數(shù)據(jù) 預處理 數(shù)據(jù)處理技術 可視化技術 采集系統(tǒng) 獨特優(yōu)勢 關聯(lián)關系 描述對象 數(shù)據(jù)隱藏 信息規(guī)律 字段信息 挖掘 數(shù)據(jù)體 數(shù)據(jù)項 新穎性 直觀性 智能性 聚類 展示 自動化 全球 直觀 采集 關聯(lián) 創(chuàng)建 | ||
本發(fā)明涉及數(shù)據(jù)開發(fā)與組織技術領域,尤其涉及一種基于大數(shù)據(jù)技術的全球智庫數(shù)據(jù)開發(fā)與組織方法;方法包括如下步驟:通過Web信息采集系統(tǒng)對智庫的數(shù)據(jù)進行自動化采集,并形成字段信息;通過對字段的定義和所描述對象的屬性,形成一批相同類型的數(shù)據(jù),對該類數(shù)據(jù)進行組織;創(chuàng)建數(shù)據(jù)體之間的關系;通過大數(shù)據(jù)處理技術,對這些數(shù)據(jù)進行預處理,使其成為有用的成品數(shù)據(jù);通過關聯(lián)挖掘技術和聚類挖掘技術尋找成品數(shù)據(jù)中數(shù)據(jù)項之間的關聯(lián)關系,從大量的數(shù)據(jù)中找出隱藏的信息;通過可視化技術對數(shù)據(jù)進行展示,把數(shù)據(jù)隱藏的信息規(guī)律直觀的展示出來;實現(xiàn)了技術的實質性提升,在先進性、新穎性、智能性、直觀性等方面有著獨特優(yōu)勢。
技術領域
本發(fā)明涉及數(shù)據(jù)開發(fā)與組織技術領域,尤其涉及一種基于大數(shù)據(jù)技術的全球智庫數(shù)據(jù)開發(fā)與組織方法。
背景技術
在數(shù)字圖書行業(yè)的數(shù)據(jù)庫廠商中,目前主流的數(shù)據(jù)獲取主要是通過掃描錄入、成品購買等方式,該方式數(shù)據(jù)獲取成本較高;在數(shù)據(jù)組織方式上大多以文獻的方式進行組織,比較單一、不夠靈活;在數(shù)據(jù)處理與挖掘方面主要針對的是結構化數(shù)據(jù),非結構化數(shù)據(jù)在處理與挖掘時比較困難;在可視化展示方面,沒有體現(xiàn)大數(shù)據(jù)的特點,展示方式不直觀。
發(fā)明內容
本發(fā)明的目的在于克服上述現(xiàn)有技術的不足,提供一種基于大數(shù)據(jù)技術的全球智庫數(shù)據(jù)開發(fā)與組織方法。
本發(fā)明提供了一種基于大數(shù)據(jù)技術的全球智庫數(shù)據(jù)開發(fā)與組織方法,所述方法包括下述步驟:
根據(jù)智庫機構、智庫動態(tài)、研究專家、研究成果,通過Web信息采集系統(tǒng)對智庫的數(shù)據(jù)進行自動化采集,并形成不同的字段信息;
通過對字段的定義和所描述對象的屬性,并以關系型數(shù)據(jù)庫建立的表結構為基礎,形成一批相同類型的數(shù)據(jù),對該類數(shù)據(jù)進行組織;進而創(chuàng)建數(shù)據(jù)體之間的關系;
根據(jù)數(shù)據(jù)體之間的關系,將數(shù)據(jù)主要分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),通過大數(shù)據(jù)處理技術,對這些數(shù)據(jù)進行預處理,所述預處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約,使其成為有用的成品數(shù)據(jù);
通過關聯(lián)挖掘技術和聚類挖掘技術尋找成品數(shù)據(jù)中數(shù)據(jù)項之間的關聯(lián)關系,讓同類型的資源集中展示,深度挖掘出同類型資源的聚集效應,從大量的數(shù)據(jù)中找出隱藏的信息;
通過可視化技術對數(shù)據(jù)進行展示,把數(shù)據(jù)隱藏的信息規(guī)律直觀的展示出來,能夠迅速和有效地簡化與提煉數(shù)據(jù)流,使我們能夠交互篩選大量的數(shù)據(jù),完成數(shù)據(jù)分析。
可選的,所述智庫機構的字段信息包括智庫名稱、智庫排名、智庫簡介、所屬成果、所屬專家、聯(lián)系方式;
所述智庫動態(tài)的字段信息包括標題、日期、正文、圖片、作者、來源、地址;
所述研究專家的字段信息包括姓名、照片、所屬機構、職務、職稱、個人簡歷、研究領域、研究成果;
所述研究成果的字段信息包括標題、日期、作者、所屬機構、成果類型、關鍵詞、摘要、全文。
可選的,進而創(chuàng)建數(shù)據(jù)體之間的關系,包括:研究專家關聯(lián)到智庫機構,智庫動態(tài)關聯(lián)到智庫機構,研究成果關聯(lián)到對應專家,形成完整的關系網(wǎng)絡。
可選的,所述數(shù)據(jù)清洗包括:數(shù)據(jù)分析、定義清洗規(guī)則、執(zhí)行清洗規(guī)則以及清洗結果驗證;
所述數(shù)據(jù)分析通過相關知識,應用統(tǒng)計學,數(shù)據(jù)挖掘的方法,分析出數(shù)據(jù)源中數(shù)據(jù)的特點,為定義數(shù)據(jù)清洗規(guī)則奠定基礎;
所述定義清洗規(guī)則包括空值的檢查和處理,非法值的檢測和處理,不一致數(shù)據(jù)的檢測和處理,相似重復記錄的檢測和處理;
所述執(zhí)行清洗規(guī)則通過檢查拼寫錯誤,去掉重復的記錄,補上不完全的記錄,解決不一致的記錄;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶尚唯信息技術有限公司,未經(jīng)重慶尚唯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910188355.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)字典的管理方法及系統(tǒng)
- 一種大數(shù)據(jù)應用開發(fā)的系統(tǒng)及方法
- 一種項目管理的方法
- 基于Spark的大數(shù)據(jù)開發(fā)方法及裝置、終端
- 一種數(shù)據(jù)可用不可見的政務數(shù)據(jù)開發(fā)方法及系統(tǒng)
- 虛擬維修訓練平臺開發(fā)系統(tǒng)
- 一種數(shù)據(jù)開發(fā)的授權方法
- 基于區(qū)塊鏈的數(shù)據(jù)開發(fā)方法、系統(tǒng)、服務器及存儲介質
- web應用開發(fā)方法、裝置、服務器及開發(fā)終端
- 一種項目開發(fā)方法、裝置、設備以及計算機存儲介質
- 基于大數(shù)據(jù)平臺的網(wǎng)絡安全實施系統(tǒng)及方法
- 基于事件驅動的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應用開發(fā)的系統(tǒng)及方法
- 家用設備報告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲介質
- 一種基于計算機大數(shù)據(jù)的平臺架構
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計算機設備
- 一種知識產(chǎn)權大數(shù)據(jù)情報檢索系統(tǒng)





