[發(fā)明專利]一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210543819.7 | 申請(qǐng)日: | 2022-05-18 |
| 公開(公告)號(hào): | CN114817549A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計(jì))人: | 張昌福;楊文峰;李琳;文杰;楊廷瑋濘;袁江遠(yuǎn) | 申請(qǐng)(專利權(quán))人: | 貴州航天云網(wǎng)科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06K9/62 |
| 代理公司: | 重慶上義眾和專利代理事務(wù)所(普通合伙) 50225 | 代理人: | 孫人鵬 |
| 地址: | 550000 貴州省貴陽市貴陽國家高新技術(shù)產(chǎn)*** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 結(jié)構(gòu) 海量 數(shù)據(jù) 智能 分析 方法 | ||
一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,通過設(shè)定任務(wù)目標(biāo),針對(duì)任務(wù)目標(biāo)設(shè)定有資料庫。數(shù)據(jù)收集器將文件收集到資料庫中。設(shè)置有標(biāo)準(zhǔn)模板,數(shù)據(jù)轉(zhuǎn)換模塊將所有文件按照標(biāo)準(zhǔn)模板轉(zhuǎn)換成統(tǒng)一的文本格式存儲(chǔ)到數(shù)據(jù)庫中;設(shè)置有聚類模型對(duì)文本進(jìn)行聚類分析得到文本的主題類型標(biāo)簽,專家對(duì)機(jī)器聚類生成的類型作人工輔助調(diào)整,接著設(shè)置的分類模型對(duì)文本按照調(diào)整好的類型進(jìn)行分類,在同一分類下分別按照時(shí)間節(jié)點(diǎn)做關(guān)聯(lián)分析,有效的發(fā)現(xiàn)概念隨著時(shí)間線的演化。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體涉及一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法。
背景技術(shù)
大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)上隨時(shí)都在產(chǎn)生大量的文本數(shù)據(jù),例如,郵件、網(wǎng)頁、文檔、語音等。為了對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行利用,我們需要更加全面的對(duì)收集到的龐大的數(shù)據(jù)信息進(jìn)行分析處理,從中分析和挖掘出有價(jià)值的信息。現(xiàn)有技術(shù)中,產(chǎn)生的原始數(shù)據(jù)越來越多的是非結(jié)構(gòu)化數(shù)據(jù),對(duì)這些原始數(shù)據(jù)使用之前主要是通過人工進(jìn)行標(biāo)注清洗處理,隨著信息量增加,光是靠人工處理,一方面,重復(fù)工作容易出錯(cuò),另一方面,隨著數(shù)據(jù)增加,人工前期進(jìn)行清洗標(biāo)注效率也不高,很容易出錯(cuò)。因此,如何利用機(jī)器算法輔助人工對(duì)這些原始數(shù)據(jù)進(jìn)行高效的分析和提煉始終是本領(lǐng)域的需要解決的問題。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提出一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,具體技術(shù)方案如下:
一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,其特征在于:
包括如下步驟:
S1:設(shè)定任務(wù)目標(biāo),針對(duì)任務(wù)目標(biāo)設(shè)定有資料庫;
S2:數(shù)據(jù)收集器將文件收集到資料庫中;
S3:設(shè)置有標(biāo)準(zhǔn)模板,數(shù)據(jù)轉(zhuǎn)換模塊將所有文件按照標(biāo)準(zhǔn)模板轉(zhuǎn)換成統(tǒng)一的文本格式存儲(chǔ)到數(shù)據(jù)庫中;
S4:數(shù)據(jù)處理模塊針對(duì)數(shù)據(jù)庫中的文本建立初步的術(shù)語-文本矩陣,其中矩陣的行代表文本,矩陣中的列代表術(shù)語,數(shù)據(jù)處理模塊將術(shù)語-文本矩陣發(fā)送到審核端;
S5:專家通過審核端對(duì)術(shù)語-文本矩陣進(jìn)行檢驗(yàn),剔除掉干擾詞,縮小矩陣維度,得到最終術(shù)語-文本矩陣;
S6:設(shè)置有聚類模型,數(shù)據(jù)處理模塊調(diào)用聚類模型對(duì)文本進(jìn)行聚類分析,得到初步的主題標(biāo)簽,數(shù)據(jù)處理模塊將該主題標(biāo)簽發(fā)送到審核端;
S7:專家對(duì)主題標(biāo)簽進(jìn)行評(píng)估,專家對(duì)主題標(biāo)簽進(jìn)行人工評(píng)估增刪后,通過審核端將該分類標(biāo)簽保存到數(shù)據(jù)庫中;
S8:數(shù)據(jù)處理模塊用標(biāo)注有分類標(biāo)簽的文本集作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到分類模型;
S9:數(shù)據(jù)處理模塊調(diào)用訓(xùn)練好的分類模型對(duì)文本進(jìn)行分類,將文本劃分到對(duì)應(yīng)的標(biāo)簽下面,得到分類文件集合;
S10:針對(duì)同一分類文件集合,數(shù)據(jù)處理模塊選取不同時(shí)間節(jié)點(diǎn)的文件集,得到多組文件集合;
S11:數(shù)據(jù)處理模塊對(duì)每組文件集合中的文件內(nèi)容作概念關(guān)聯(lián)分析;
S12:數(shù)據(jù)處理模塊按照時(shí)間節(jié)點(diǎn)將同一分類下的關(guān)鍵概念組整理成報(bào)告發(fā)送到審核端;
S13:審核端將報(bào)告呈現(xiàn)可視化展示,方便觀察到同一分類下關(guān)鍵概念及其發(fā)展趨勢。
2、根據(jù)權(quán)利要求1所述一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,其特征在于:所述聚類模型采用K均值聚類算法。
3、根據(jù)權(quán)利要求1所述一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,其特征在于:所述數(shù)據(jù)收集器為網(wǎng)絡(luò)爬蟲。
4、根據(jù)權(quán)利要求1所述一種基于非結(jié)構(gòu)化海量數(shù)據(jù)的智能分析方法,其特征在于:所述收集資料包括文本檔案、XML文件、郵件、網(wǎng)頁、語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州航天云網(wǎng)科技有限公司,未經(jīng)貴州航天云網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210543819.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





