[發(fā)明專利]結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201811142866.0 | 申請(qǐng)日: | 2018-09-28 |
| 公開(公告)號(hào): | CN109460420A | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 王軍平 | 申請(qǐng)(專利權(quán))人: | 北京賽博貝斯數(shù)據(jù)科技有限責(zé)任公司 |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458;G06F16/215 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所 11399 | 代理人: | 朱健;張國(guó)香 |
| 地址: | 102200 北京市昌平區(qū)沙*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識(shí)挖掘 結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)清洗 構(gòu)建 采集 目標(biāo)數(shù)據(jù) 目標(biāo)信息 數(shù)據(jù)分析 準(zhǔn)確率 | ||
本發(fā)明公開了一種結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng),通過(guò)采集需進(jìn)行知識(shí)挖掘的結(jié)構(gòu)化數(shù)據(jù),并對(duì)采集的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;根據(jù)目標(biāo)數(shù)據(jù)特征,對(duì)數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識(shí)挖掘模型;利用知識(shí)挖掘模型,從結(jié)構(gòu)化數(shù)據(jù)中提取出對(duì)應(yīng)的目標(biāo)信息;具有根據(jù)具體的知識(shí)挖掘需求構(gòu)建對(duì)應(yīng)的知識(shí)挖掘模型的有益效果,從而提高了知識(shí)挖掘的針對(duì)性和知識(shí)挖掘的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展和普及,各種信息呈現(xiàn)了爆炸式增加;若通過(guò)人為的方式來(lái)獲取有用的信息費(fèi)時(shí)費(fèi)力,且非常困難;因此如何從海量的信息中獲取所需要的內(nèi)容并能夠?qū)@取的內(nèi)容以有用的知識(shí)呈現(xiàn),成為用戶普遍關(guān)注的焦點(diǎn)。現(xiàn)有的針對(duì)海量數(shù)據(jù)進(jìn)行知識(shí)挖掘時(shí),更側(cè)重根據(jù)已知的知識(shí)預(yù)先進(jìn)行人工模型的建立,然后根據(jù)既定的人工模型進(jìn)行知識(shí)挖掘。這種處理方式由于采用既定的模型進(jìn)行知識(shí)挖掘,在不同應(yīng)用場(chǎng)景中模型的匹配度不高,因此知識(shí)挖掘的效果也不明顯。
發(fā)明內(nèi)容
本發(fā)明提供一種結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng),用以根據(jù)具體的知識(shí)挖掘需求構(gòu)建對(duì)應(yīng)的知識(shí)挖掘模型,提高知識(shí)挖掘的針對(duì)性和知識(shí)挖掘的準(zhǔn)確率。
本發(fā)明提供了一種結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法,所述結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法包括:
采集需進(jìn)行知識(shí)挖掘的結(jié)構(gòu)化數(shù)據(jù),并對(duì)采集的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
根據(jù)目標(biāo)數(shù)據(jù)特征,對(duì)數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識(shí)挖掘模型;
利用知識(shí)挖掘模型,從結(jié)構(gòu)化數(shù)據(jù)中提取出對(duì)應(yīng)的目標(biāo)信息。
進(jìn)一步地,所述采集需進(jìn)行知識(shí)挖掘的結(jié)構(gòu)化數(shù)據(jù),并對(duì)采集的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括:
從待進(jìn)行知識(shí)挖掘的對(duì)應(yīng)數(shù)據(jù)庫(kù)中,采集所有的結(jié)構(gòu)化數(shù)據(jù);
針對(duì)已采集的結(jié)構(gòu)化數(shù)據(jù),進(jìn)行數(shù)據(jù)篩選,判斷所述結(jié)構(gòu)化數(shù)據(jù)是否存在缺失;若存在缺失,則根據(jù)預(yù)設(shè)處理方式,填充缺失字段或者刪除缺失字段;
優(yōu)化篩選后的結(jié)構(gòu)化數(shù)據(jù),驗(yàn)證所述結(jié)構(gòu)化數(shù)據(jù)的正確性并對(duì)重復(fù)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重處理;
分析優(yōu)化后的結(jié)構(gòu)化數(shù)據(jù)中是否存在異類數(shù)據(jù);若存在異類數(shù)據(jù),則對(duì)存在的異類數(shù)據(jù)進(jìn)行修改或者刪除。
進(jìn)一步地,所述根據(jù)目標(biāo)數(shù)據(jù)特征,對(duì)數(shù)據(jù)清洗后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,根據(jù)分析結(jié)果構(gòu)建知識(shí)挖掘模型,包括:
根據(jù)所需的目標(biāo)數(shù)據(jù)的數(shù)據(jù)特征,將語(yǔ)義推理和機(jī)器學(xué)習(xí)方法相結(jié)合,進(jìn)行機(jī)器學(xué)習(xí);
提取出所述目標(biāo)數(shù)據(jù)中的關(guān)鍵字,并將提取出的關(guān)鍵字與所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行對(duì)比;
根據(jù)所述結(jié)構(gòu)化數(shù)據(jù)中關(guān)鍵字的出現(xiàn)次數(shù),計(jì)算所述結(jié)構(gòu)化數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)的相關(guān)度分值,并將得到的相關(guān)度分值與預(yù)設(shè)門限值進(jìn)行比較;
若得到的相關(guān)度分值大于或者等于所述預(yù)設(shè)門限值,則將對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)作為與所述目標(biāo)數(shù)據(jù)相關(guān)的內(nèi)容數(shù)據(jù);若得到的相關(guān)度分值小于所述預(yù)設(shè)門限值,則將對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)作為與所述目標(biāo)數(shù)據(jù)不相關(guān)的內(nèi)容數(shù)據(jù);
根據(jù)比較結(jié)果,構(gòu)建知識(shí)挖掘模型。
進(jìn)一步地,所述根據(jù)比較結(jié)果,構(gòu)建知識(shí)挖掘模型,包括:
根據(jù)比較結(jié)果,構(gòu)建多個(gè)知識(shí)挖掘模型;
利用交叉驗(yàn)證的測(cè)試方法,對(duì)構(gòu)建的多個(gè)知識(shí)挖掘模型進(jìn)行測(cè)試;
根據(jù)測(cè)試結(jié)果,對(duì)構(gòu)建的知識(shí)挖掘模型進(jìn)行參數(shù)調(diào)優(yōu);
對(duì)參數(shù)調(diào)優(yōu)后的多個(gè)知識(shí)挖掘模型進(jìn)行評(píng)估;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京賽博貝斯數(shù)據(jù)科技有限責(zé)任公司,未經(jīng)北京賽博貝斯數(shù)據(jù)科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811142866.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于病毒蛋白質(zhì)本體的知識(shí)導(dǎo)航的方法、裝置
- 基于數(shù)據(jù)挖掘的醫(yī)學(xué)知識(shí)庫(kù)系統(tǒng)
- 知識(shí)點(diǎn)挖掘方法及裝置
- 非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng)
- 結(jié)構(gòu)化數(shù)據(jù)的知識(shí)挖掘方法及系統(tǒng)
- 一種基于雙庫(kù)聯(lián)動(dòng)的知識(shí)挖掘方法及裝置
- 挖掘知識(shí)圖譜中隱含信息的方法、系統(tǒng)及電子設(shè)備
- 基于圖譜的漏洞知識(shí)挖掘方法及系統(tǒng)
- 變電運(yùn)維知識(shí)頻繁模式挖掘方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于大數(shù)據(jù)的知識(shí)產(chǎn)權(quán)管理系統(tǒng)、方法及設(shè)備
- 結(jié)構(gòu)化元數(shù)據(jù)的合并方法、傳輸方法以及分割方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 業(yè)務(wù)項(xiàng)目的風(fēng)險(xiǎn)識(shí)別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)查詢方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 信息關(guān)聯(lián)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法
- 數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及數(shù)據(jù)清洗裝置
- 一種數(shù)據(jù)清洗的方法及用于數(shù)據(jù)清洗的裝置
- 一種數(shù)據(jù)清洗方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)清洗方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)清洗方法及裝置
- 一種快速運(yùn)行的大數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及裝置
- 一種數(shù)據(jù)清洗方法、系統(tǒng)、數(shù)據(jù)清洗設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)清洗方法和裝置
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





