[發(fā)明專利]一種基于大數(shù)據(jù)技術(shù)的全球智庫數(shù)據(jù)開發(fā)與組織方法在審
| 申請?zhí)枺?/td> | 201910188355.0 | 申請日: | 2019-03-13 |
| 公開(公告)號: | CN109933693A | 公開(公告)日: | 2019-06-25 |
| 發(fā)明(設(shè)計(jì))人: | 姜開學(xué);鄧代海;魏姚 | 申請(專利權(quán))人: | 重慶尚唯信息技術(shù)有限公司 |
| 主分類號: | G06F16/90 | 分類號: | G06F16/90;G06F16/906;G06F16/903 |
| 代理公司: | 重慶啟恒騰元專利代理事務(wù)所(普通合伙) 50232 | 代理人: | 趙晨宇 |
| 地址: | 401144 重慶市*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)開發(fā) 成品數(shù)據(jù) 大數(shù)據(jù) 預(yù)處理 數(shù)據(jù)處理技術(shù) 可視化技術(shù) 采集系統(tǒng) 獨(dú)特優(yōu)勢 關(guān)聯(lián)關(guān)系 描述對象 數(shù)據(jù)隱藏 信息規(guī)律 字段信息 挖掘 數(shù)據(jù)體 數(shù)據(jù)項(xiàng) 新穎性 直觀性 智能性 聚類 展示 自動化 全球 直觀 采集 關(guān)聯(lián) 創(chuàng)建 | ||
1.一種基于大數(shù)據(jù)技術(shù)的全球智庫數(shù)據(jù)開發(fā)與組織方法,其特征在于,所述方法包括如下步驟:
根據(jù)智庫機(jī)構(gòu)、智庫動態(tài)、研究專家、研究成果,通過Web信息采集系統(tǒng)對智庫的數(shù)據(jù)進(jìn)行自動化采集,并形成不同的字段信息;
通過對字段的定義和所描述對象的屬性,并以關(guān)系型數(shù)據(jù)庫建立的表結(jié)構(gòu)為基礎(chǔ),形成一批相同類型的數(shù)據(jù),對該類數(shù)據(jù)進(jìn)行組織;進(jìn)而創(chuàng)建數(shù)據(jù)體之間的關(guān)系;
根據(jù)數(shù)據(jù)體之間的關(guān)系,將數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過大數(shù)據(jù)處理技術(shù),對這些數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約,使其成為有用的成品數(shù)據(jù);
通過關(guān)聯(lián)挖掘技術(shù)和聚類挖掘技術(shù)尋找成品數(shù)據(jù)中數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,讓同類型的資源集中展示,深度挖掘出同類型資源的聚集效應(yīng),從大量的數(shù)據(jù)中找出隱藏的信息;
通過可視化技術(shù)對數(shù)據(jù)進(jìn)行展示,把數(shù)據(jù)隱藏的信息規(guī)律直觀的展示出來,能夠迅速和有效地簡化與提煉數(shù)據(jù)流,使我們能夠交互篩選大量的數(shù)據(jù),完成數(shù)據(jù)分析。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述智庫機(jī)構(gòu)的字段信息包括智庫名稱、智庫排名、智庫簡介、所屬成果、所屬專家、聯(lián)系方式;
所述智庫動態(tài)的字段信息包括標(biāo)題、日期、正文、圖片、作者、來源、地址;
所述研究專家的字段信息包括姓名、照片、所屬機(jī)構(gòu)、職務(wù)、職稱、個人簡歷、研究領(lǐng)域、研究成果;
所述研究成果的字段信息包括標(biāo)題、日期、作者、所屬機(jī)構(gòu)、成果類型、關(guān)鍵詞、摘要、全文。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)而創(chuàng)建數(shù)據(jù)體之間的關(guān)系,包括:研究專家關(guān)聯(lián)到智庫機(jī)構(gòu),智庫動態(tài)關(guān)聯(lián)到智庫機(jī)構(gòu),研究成果關(guān)聯(lián)到對應(yīng)專家,形成完整的關(guān)系網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)清洗的步驟包括:數(shù)據(jù)分析、定義清洗規(guī)則、執(zhí)行清洗規(guī)則以及清洗結(jié)果驗(yàn)證;
所述數(shù)據(jù)分析通過相關(guān)知識,應(yīng)用統(tǒng)計(jì)學(xué),數(shù)據(jù)挖掘的方法,分析出數(shù)據(jù)源中數(shù)據(jù)的特點(diǎn),為定義數(shù)據(jù)清洗規(guī)則奠定基礎(chǔ);
所述定義清洗規(guī)則包括空值的檢查和處理,非法值的檢測和處理,不一致數(shù)據(jù)的檢測和處理,相似重復(fù)記錄的檢測和處理;
所述執(zhí)行清洗規(guī)則通過檢查拼寫錯誤,去掉重復(fù)的記錄,補(bǔ)上不完全的記錄,解決不一致的記錄;
所述清洗結(jié)果驗(yàn)證通過對定義的清洗轉(zhuǎn)換規(guī)則的正確性和效率進(jìn)行驗(yàn)證和評估,當(dāng)不滿足清洗要求時,對清洗規(guī)則或系統(tǒng)參數(shù)進(jìn)行調(diào)整和改進(jìn)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)集成包括:
收集所述數(shù)據(jù)清洗后的數(shù)據(jù),根據(jù)眾多不同智庫數(shù)據(jù)的來源,對智庫機(jī)構(gòu)、研究專家、成果類型建立統(tǒng)一的數(shù)據(jù)倉庫,每個倉庫存儲對應(yīng)數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)的集成;
通過在數(shù)據(jù)集成前進(jìn)行調(diào)研,確認(rèn)每個字段的實(shí)際意義,避免被不規(guī)范的命名誤導(dǎo),從而解決字段意義問題;
通過在數(shù)據(jù)集成的過程中盡量明確數(shù)據(jù)字段結(jié)構(gòu),確定字段的基本屬性,在后續(xù)進(jìn)行數(shù)據(jù)集成時,通過上表對數(shù)據(jù)格式進(jìn)行約束,避免因格式不同對集成帶來的困擾,從而解決字段結(jié)構(gòu)問題;
通過檢測字段的相關(guān)性,偵察到數(shù)據(jù)冗余,從而解決字段冗余問題;
通過調(diào)研定義主鍵,或者對表進(jìn)行拆分或整合,檢查數(shù)據(jù)記錄的重復(fù),主鍵能夠確定唯一記錄,其有可能是一個字段,也有可能是幾個字段的組合,對表進(jìn)行優(yōu)化,過濾重復(fù)數(shù)據(jù),從而解決數(shù)據(jù)重復(fù)問題。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)變換通過對數(shù)據(jù)依次進(jìn)行光滑處理、聚集處理、數(shù)據(jù)泛化、數(shù)據(jù)規(guī)范化、數(shù)據(jù)屬性構(gòu)造,使數(shù)據(jù)統(tǒng)一化,并將數(shù)據(jù)轉(zhuǎn)換成html或PDF的格式進(jìn)行存儲;
所述光滑處理通過分箱或回歸的方法去掉數(shù)據(jù)中的噪聲;
所述聚集處理通過對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行簡單的匯總和聚集來獲得統(tǒng)計(jì)信息,以便對數(shù)據(jù)進(jìn)行更高層次的分析;
所述數(shù)據(jù)泛化通過高層的概念來替換低層或原始數(shù)據(jù);
所述數(shù)據(jù)規(guī)范化通過對屬性數(shù)據(jù)進(jìn)行縮放,使之可以落入到一個特定區(qū)域之間;
所述數(shù)據(jù)屬性構(gòu)造通過構(gòu)造新的屬性并添加到屬性集合中以便幫助挖掘。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶尚唯信息技術(shù)有限公司,未經(jīng)重慶尚唯信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910188355.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)字典的管理方法及系統(tǒng)
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 一種項(xiàng)目管理的方法
- 基于Spark的大數(shù)據(jù)開發(fā)方法及裝置、終端
- 一種數(shù)據(jù)可用不可見的政務(wù)數(shù)據(jù)開發(fā)方法及系統(tǒng)
- 虛擬維修訓(xùn)練平臺開發(fā)系統(tǒng)
- 一種數(shù)據(jù)開發(fā)的授權(quán)方法
- 基于區(qū)塊鏈的數(shù)據(jù)開發(fā)方法、系統(tǒng)、服務(wù)器及存儲介質(zhì)
- web應(yīng)用開發(fā)方法、裝置、服務(wù)器及開發(fā)終端
- 一種項(xiàng)目開發(fā)方法、裝置、設(shè)備以及計(jì)算機(jī)存儲介質(zhì)
- 編輯和銷售創(chuàng)造物數(shù)據(jù)的設(shè)備和方法
- 可視化數(shù)據(jù)庫系統(tǒng)及檢索方法
- 生產(chǎn)計(jì)劃中后續(xù)處理過程優(yōu)化的方法
- 食品安全云端系統(tǒng)及其追蹤方法
- 數(shù)據(jù)對象信息處理方法、裝置及系統(tǒng)
- 數(shù)據(jù)對象信息處理方法、裝置及系統(tǒng)
- 一種水泥成品比表面積預(yù)測方法及系統(tǒng)
- 一種基于物料雙單位實(shí)現(xiàn)MRP功能的方法及設(shè)備
- 基于區(qū)塊鏈的日產(chǎn)日清核算方法、裝置、設(shè)備及存儲介質(zhì)
- 日產(chǎn)日清核算方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 基于大數(shù)據(jù)平臺的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





