[發(fā)明專利]結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811142866.0 | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN109460420A | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設計)人: | 王軍平 | 申請(專利權(quán))人: | 北京賽博貝斯數(shù)據(jù)科技有限責任公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/215 |
| 代理公司: | 北京冠和權(quán)律師事務所 11399 | 代理人: | 朱健;張國香 |
| 地址: | 102200 北京市昌平區(qū)沙*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識挖掘 結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)清洗 構(gòu)建 采集 目標數(shù)據(jù) 目標信息 數(shù)據(jù)分析 準確率 | ||
1.一種結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法,其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法包括:
采集需進行知識挖掘的結(jié)構(gòu)化數(shù)據(jù),并對采集的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗;
根據(jù)目標數(shù)據(jù)特征,對數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識挖掘模型;
利用知識挖掘模型,從結(jié)構(gòu)化數(shù)據(jù)中提取出對應的目標信息。
2.如權(quán)利要求1所述的結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法,其特征在于,所述采集需進行知識挖掘的結(jié)構(gòu)化數(shù)據(jù),并對采集的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗,包括:
從待進行知識挖掘的對應數(shù)據(jù)庫中,采集所有的結(jié)構(gòu)化數(shù)據(jù);
針對已采集的結(jié)構(gòu)化數(shù)據(jù),進行數(shù)據(jù)篩選,判斷所述結(jié)構(gòu)化數(shù)據(jù)是否存在缺失;若存在缺失,則根據(jù)預設處理方式,填充缺失字段或者刪除缺失字段;
優(yōu)化篩選后的結(jié)構(gòu)化數(shù)據(jù),驗證所述結(jié)構(gòu)化數(shù)據(jù)的正確性并對重復的結(jié)構(gòu)化數(shù)據(jù)進行去重處理;
分析優(yōu)化后的結(jié)構(gòu)化數(shù)據(jù)中是否存在異類數(shù)據(jù);若存在異類數(shù)據(jù),則對存在的異類數(shù)據(jù)進行修改或者刪除。
3.如權(quán)利要求1或2所述的結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法,其特征在于,所述根據(jù)目標數(shù)據(jù)特征,對數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識挖掘模型,包括:
根據(jù)所需的目標數(shù)據(jù)的數(shù)據(jù)特征,將語義推理和機器學習方法相結(jié)合,進行機器學習;
提取出所述目標數(shù)據(jù)中的關(guān)鍵字,并將提取出的關(guān)鍵字與所述結(jié)構(gòu)化數(shù)據(jù)進行對比;
根據(jù)所述結(jié)構(gòu)化數(shù)據(jù)中關(guān)鍵字的出現(xiàn)次數(shù),計算所述結(jié)構(gòu)化數(shù)據(jù)與所述目標數(shù)據(jù)的相關(guān)度分值,并將得到的相關(guān)度分值與預設門限值進行比較;
若得到的相關(guān)度分值大于或者等于所述預設門限值,則將對應的結(jié)構(gòu)化數(shù)據(jù)作為與所述目標數(shù)據(jù)相關(guān)的內(nèi)容數(shù)據(jù);若得到的相關(guān)度分值小于所述預設門限值,則將對應的結(jié)構(gòu)化數(shù)據(jù)作為與所述目標數(shù)據(jù)不相關(guān)的內(nèi)容數(shù)據(jù);
根據(jù)比較結(jié)果,構(gòu)建知識挖掘模型。
4.如權(quán)利要求3所述的結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法,其特征在于,所述根據(jù)比較結(jié)果,構(gòu)建知識挖掘模型,包括:
根據(jù)比較結(jié)果,構(gòu)建多個知識挖掘模型;
利用交叉驗證的測試方法,對構(gòu)建的多個知識挖掘模型進行測試;
根據(jù)測試結(jié)果,對構(gòu)建的知識挖掘模型進行參數(shù)調(diào)優(yōu);
對參數(shù)調(diào)優(yōu)后的多個知識挖掘模型進行評估;
根據(jù)評估結(jié)果,從構(gòu)建的多個知識挖掘模型中選擇一個最優(yōu)的知識挖掘模型;或者,多個知識挖掘模型進行混合部署。
5.如權(quán)利要求3所述的結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法,其特征在于,所述根據(jù)比較結(jié)果,構(gòu)建知識挖掘模型,包括:
根據(jù)比較結(jié)果,設計LDA模型的算法,采用分布式及塊分裂技術(shù),構(gòu)建對應的知識挖掘模型。
6.一種結(jié)構(gòu)化數(shù)據(jù)的知識挖掘系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)的知識挖掘系統(tǒng)包括:
數(shù)據(jù)清洗模塊,用于采集需進行知識挖掘的結(jié)構(gòu)化數(shù)據(jù),并對采集的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)清洗;
模型構(gòu)建模塊,用于根據(jù)目標數(shù)據(jù)特征,對數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識挖掘模型;
知識挖掘模塊,用于利用知識挖掘模型,從結(jié)構(gòu)化數(shù)據(jù)中提取出對應的目標信息。
7.如權(quán)利要求6所述的結(jié)構(gòu)化數(shù)據(jù)的知識挖掘系統(tǒng),其特征在于,所述數(shù)據(jù)清洗模塊用于:
從待進行知識挖掘的對應數(shù)據(jù)庫中,采集所有的結(jié)構(gòu)化數(shù)據(jù);
針對已采集的結(jié)構(gòu)化數(shù)據(jù),進行數(shù)據(jù)篩選,判斷所述結(jié)構(gòu)化數(shù)據(jù)是否存在缺失;若存在缺失,則根據(jù)預設處理方式,填充缺失字段或者刪除缺失字段;
優(yōu)化篩選后的結(jié)構(gòu)化數(shù)據(jù),驗證所述結(jié)構(gòu)化數(shù)據(jù)的正確性并對重復的結(jié)構(gòu)化數(shù)據(jù)進行去重處理;
分析優(yōu)化后的結(jié)構(gòu)化數(shù)據(jù)中是否存在異類數(shù)據(jù);若存在異類數(shù)據(jù),則對存在的異類數(shù)據(jù)進行修改或者刪除。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京賽博貝斯數(shù)據(jù)科技有限責任公司,未經(jīng)北京賽博貝斯數(shù)據(jù)科技有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811142866.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于病毒蛋白質(zhì)本體的知識導航的方法、裝置
- 基于數(shù)據(jù)挖掘的醫(yī)學知識庫系統(tǒng)
- 知識點挖掘方法及裝置
- 非結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法及系統(tǒng)
- 結(jié)構(gòu)化數(shù)據(jù)的知識挖掘方法及系統(tǒng)
- 一種基于雙庫聯(lián)動的知識挖掘方法及裝置
- 挖掘知識圖譜中隱含信息的方法、系統(tǒng)及電子設備
- 基于圖譜的漏洞知識挖掘方法及系統(tǒng)
- 變電運維知識頻繁模式挖掘方法、裝置、設備及存儲介質(zhì)
- 一種基于大數(shù)據(jù)的知識產(chǎn)權(quán)管理系統(tǒng)、方法及設備
- 結(jié)構(gòu)化元數(shù)據(jù)的合并方法、傳輸方法以及分割方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 業(yè)務項目的風險識別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)查詢方法、設備、存儲介質(zhì)及裝置
- 信息關(guān)聯(lián)方法、裝置、設備及存儲介質(zhì)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲方法、裝置、計算機設備和存儲介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲方法、裝置、設備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法
- 數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及數(shù)據(jù)清洗裝置
- 一種數(shù)據(jù)清洗的方法及用于數(shù)據(jù)清洗的裝置
- 一種數(shù)據(jù)清洗方法、裝置及計算機可讀存儲介質(zhì)
- 數(shù)據(jù)清洗方法、裝置、設備和存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法及裝置
- 一種快速運行的大數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及裝置
- 一種數(shù)據(jù)清洗方法、系統(tǒng)、數(shù)據(jù)清洗設備和可讀存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法和裝置
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設備
- 并行構(gòu)建的方法、裝置及設備
- 構(gòu)建肺癌預測模型構(gòu)建方法





