[發(fā)明專(zhuān)利]一種大數(shù)據(jù)分類(lèi)處理方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710646320.8 | 申請(qǐng)日: | 2017-08-01 |
| 公開(kāi)(公告)號(hào): | CN107590179A | 公開(kāi)(公告)日: | 2018-01-16 |
| 發(fā)明(設(shè)計(jì))人: | 徐秋養(yǎng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 佛山市深研信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 佛山市智匯聚晨專(zhuān)利代理有限公司44409 | 代理人: | 張艷梅 |
| 地址: | 528000 廣東省佛山市禪城區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 分類(lèi) 處理 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種大數(shù)據(jù)分類(lèi)處理方法。
背景技術(shù)
隨著移動(dòng)網(wǎng)絡(luò)和移動(dòng)終端的發(fā)展,網(wǎng)絡(luò)端中資訊的發(fā)布數(shù)量也呈爆發(fā)式增長(zhǎng),人們通過(guò)網(wǎng)絡(luò)獲取資訊也越來(lái)越方便,如瀏覽新聞、看電影、玩游戲、搜索、購(gòu)物、發(fā)布信息等。
但是,大量的數(shù)據(jù)資源如果不能夠準(zhǔn)確的分類(lèi),那么在閱讀數(shù)據(jù)資源時(shí)將花費(fèi)較多時(shí)間與精力,例如,對(duì)金融領(lǐng)域來(lái)說(shuō),由于金融資訊篇幅較長(zhǎng)并且資訊中有較多的專(zhuān)業(yè)術(shù)語(yǔ),若不是該領(lǐng)域的從業(yè)者,通常很難充分理解資訊中提及的關(guān)鍵內(nèi)容,即分類(lèi)標(biāo)簽。而目前分類(lèi)標(biāo)簽通常是用戶(hù)在上傳資源時(shí)手動(dòng)輸入的,不同的用戶(hù)行業(yè)經(jīng)驗(yàn)可能存在較大的差異,因此輸入的分類(lèi)標(biāo)簽具有較強(qiáng)的主觀性,造成數(shù)據(jù)分類(lèi)的準(zhǔn)確度低下。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種大數(shù)據(jù)分類(lèi)處理方法,提高了數(shù)據(jù)分類(lèi)的準(zhǔn)確度。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種大數(shù)據(jù)分類(lèi)處理方法,所述方法包括:
獲得目標(biāo)資訊組,所述目標(biāo)資訊組中包含至少兩條目標(biāo)資訊;
對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本資訊;
對(duì)每一所述純文本資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為分類(lèi)標(biāo)簽;
根據(jù)所述分類(lèi)標(biāo)簽,對(duì)所述目標(biāo)資訊組中包含的目標(biāo)資訊進(jìn)行分類(lèi),得到分類(lèi)結(jié)果。
可選的,所述對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本資訊,包括:
分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊中的HTML標(biāo)簽和/或圖像進(jìn)行過(guò)濾,得到針對(duì)每一目標(biāo)資訊的純文本資訊。
可選的,所述對(duì)每一所述純文本資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為分類(lèi)標(biāo)簽,包括:
利用詞頻-逆向文件頻率TF-IDF算法,對(duì)第一處理資訊中包含的詞語(yǔ)進(jìn)行權(quán)重計(jì)算,得到每一詞語(yǔ)的權(quán)重值,所述第一處理資訊為:采用預(yù)設(shè)的分詞庫(kù)對(duì)所述純文本資訊中包含的無(wú)關(guān)詞進(jìn)行過(guò)濾后得到的資訊,所述無(wú)關(guān)詞為與所述目標(biāo)資訊所屬領(lǐng)域無(wú)關(guān)的詞語(yǔ);
將第一詞語(yǔ)序列的前第一預(yù)設(shè)數(shù)量個(gè)詞語(yǔ)作為分類(lèi)標(biāo)簽,所述第一詞語(yǔ)序列為按照詞語(yǔ)的權(quán)重值從大到小排列的詞語(yǔ)序列。
可選的,所述方法還包括:
針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。
可選的,所述方法還包括:
針對(duì)所述目標(biāo)資訊組中所有目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞進(jìn)行向量化,生成針對(duì)所述目標(biāo)資訊組的文本向量空間,所述文本向量空間中每一維向量均對(duì)應(yīng)一個(gè)關(guān)鍵詞;
基于所述文本向量空間,對(duì)每一目標(biāo)資訊的關(guān)鍵詞進(jìn)行聚類(lèi),得到第一數(shù)量的類(lèi)簇;
將每一類(lèi)簇的第二詞語(yǔ)序列的前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類(lèi)簇的代表詞,所述第二詞語(yǔ)序列為按照關(guān)鍵詞對(duì)應(yīng)的權(quán)重值從大到小排列的詞語(yǔ)序列。
可選的,所述方法還包括:
將所述分類(lèi)結(jié)果推送至顯示界面,所述顯示界面為展示資訊內(nèi)容的界面。
綜上可見(jiàn),本發(fā)明實(shí)施例提供的方案中,在獲得目標(biāo)資訊組之后,對(duì)目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本資訊;對(duì)每一純文本資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為分類(lèi)標(biāo)簽;根據(jù)分類(lèi)標(biāo)簽,對(duì)目標(biāo)資訊組中包含的目標(biāo)資訊進(jìn)行分類(lèi),得到分類(lèi)結(jié)果。應(yīng)用本發(fā)明實(shí)施例提供的方案,提高了數(shù)據(jù)分類(lèi)的準(zhǔn)確度。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種大數(shù)據(jù)分類(lèi)處理方法的流程示意圖。
圖2為本發(fā)明實(shí)施例提供的另一種大數(shù)據(jù)分類(lèi)處理方法的流程示意圖。
圖3為本發(fā)明實(shí)施例提供的再一種大數(shù)據(jù)分類(lèi)處理方法的流程示意圖。
圖4為本發(fā)明實(shí)施例提供的還一種大數(shù)據(jù)分類(lèi)處理方法的流程示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
下面通過(guò)具體實(shí)施例,對(duì)本發(fā)明進(jìn)行詳細(xì)的說(shuō)明。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于佛山市深研信息技術(shù)有限公司,未經(jīng)佛山市深研信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710646320.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





