[發明專利]結構化數據的知識挖掘方法及系統在審
| 申請號: | 201811142866.0 | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN109460420A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 王軍平 | 申請(專利權)人: | 北京賽博貝斯數據科技有限責任公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/215 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;張國香 |
| 地址: | 102200 北京市昌平區沙*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識挖掘 結構化數據 數據清洗 構建 采集 目標數據 目標信息 數據分析 準確率 | ||
1.一種結構化數據的知識挖掘方法,其特征在于,所述結構化數據的知識挖掘方法包括:
采集需進行知識挖掘的結構化數據,并對采集的結構化數據進行數據清洗;
根據目標數據特征,對數據清洗后的結構化數據進行數據分析,根據分析結果構建知識挖掘模型;
利用知識挖掘模型,從結構化數據中提取出對應的目標信息。
2.如權利要求1所述的結構化數據的知識挖掘方法,其特征在于,所述采集需進行知識挖掘的結構化數據,并對采集的結構化數據進行數據清洗,包括:
從待進行知識挖掘的對應數據庫中,采集所有的結構化數據;
針對已采集的結構化數據,進行數據篩選,判斷所述結構化數據是否存在缺失;若存在缺失,則根據預設處理方式,填充缺失字段或者刪除缺失字段;
優化篩選后的結構化數據,驗證所述結構化數據的正確性并對重復的結構化數據進行去重處理;
分析優化后的結構化數據中是否存在異類數據;若存在異類數據,則對存在的異類數據進行修改或者刪除。
3.如權利要求1或2所述的結構化數據的知識挖掘方法,其特征在于,所述根據目標數據特征,對數據清洗后的結構化數據進行數據分析,根據分析結果構建知識挖掘模型,包括:
根據所需的目標數據的數據特征,將語義推理和機器學習方法相結合,進行機器學習;
提取出所述目標數據中的關鍵字,并將提取出的關鍵字與所述結構化數據進行對比;
根據所述結構化數據中關鍵字的出現次數,計算所述結構化數據與所述目標數據的相關度分值,并將得到的相關度分值與預設門限值進行比較;
若得到的相關度分值大于或者等于所述預設門限值,則將對應的結構化數據作為與所述目標數據相關的內容數據;若得到的相關度分值小于所述預設門限值,則將對應的結構化數據作為與所述目標數據不相關的內容數據;
根據比較結果,構建知識挖掘模型。
4.如權利要求3所述的結構化數據的知識挖掘方法,其特征在于,所述根據比較結果,構建知識挖掘模型,包括:
根據比較結果,構建多個知識挖掘模型;
利用交叉驗證的測試方法,對構建的多個知識挖掘模型進行測試;
根據測試結果,對構建的知識挖掘模型進行參數調優;
對參數調優后的多個知識挖掘模型進行評估;
根據評估結果,從構建的多個知識挖掘模型中選擇一個最優的知識挖掘模型;或者,多個知識挖掘模型進行混合部署。
5.如權利要求3所述的結構化數據的知識挖掘方法,其特征在于,所述根據比較結果,構建知識挖掘模型,包括:
根據比較結果,設計LDA模型的算法,采用分布式及塊分裂技術,構建對應的知識挖掘模型。
6.一種結構化數據的知識挖掘系統,其特征在于,所述結構化數據的知識挖掘系統包括:
數據清洗模塊,用于采集需進行知識挖掘的結構化數據,并對采集的結構化數據進行數據清洗;
模型構建模塊,用于根據目標數據特征,對數據清洗后的結構化數據進行數據分析,根據分析結果構建知識挖掘模型;
知識挖掘模塊,用于利用知識挖掘模型,從結構化數據中提取出對應的目標信息。
7.如權利要求6所述的結構化數據的知識挖掘系統,其特征在于,所述數據清洗模塊用于:
從待進行知識挖掘的對應數據庫中,采集所有的結構化數據;
針對已采集的結構化數據,進行數據篩選,判斷所述結構化數據是否存在缺失;若存在缺失,則根據預設處理方式,填充缺失字段或者刪除缺失字段;
優化篩選后的結構化數據,驗證所述結構化數據的正確性并對重復的結構化數據進行去重處理;
分析優化后的結構化數據中是否存在異類數據;若存在異類數據,則對存在的異類數據進行修改或者刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京賽博貝斯數據科技有限責任公司,未經北京賽博貝斯數據科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811142866.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種設備狀態變化事件監測方法
- 下一篇:商戶交易數據管理方法及裝置





