[發(fā)明專利]一種基于行業(yè)的聚類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811644123.3 | 申請(qǐng)日: | 2018-12-30 |
| 公開(公告)號(hào): | CN109684480B | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計(jì))人: | 馮偉;徐承迪 | 申請(qǐng)(專利權(quán))人: | 北京人民在線網(wǎng)絡(luò)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 天津創(chuàng)信方達(dá)專利代理事務(wù)所(普通合伙) 12247 | 代理人: | 孟會(huì)賢 |
| 地址: | 100000 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 行業(yè) 方法 | ||
1.一種基于行業(yè)的聚類方法,其特征在于,包括:
獲取數(shù)據(jù)集合,所述數(shù)據(jù)集合包括一類數(shù)據(jù)和二類數(shù)據(jù);
按照一類數(shù)據(jù)的發(fā)布時(shí)間進(jìn)行數(shù)據(jù)分組,得到分組數(shù)據(jù)集,所述分組數(shù)據(jù)集中包括一類數(shù)據(jù)和與所述一類數(shù)據(jù)相關(guān)的二類數(shù)據(jù);
對(duì)每個(gè)分組數(shù)據(jù)集進(jìn)行預(yù)處理,得到所述分組數(shù)據(jù)集對(duì)應(yīng)的多個(gè)數(shù)據(jù)網(wǎng)絡(luò)集合;
對(duì)于每個(gè)分組數(shù)據(jù)集,計(jì)算其對(duì)應(yīng)的主題向量集;
基于所述主題向量集得到所述分組數(shù)據(jù)集中的熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合;
根據(jù)各個(gè)分組數(shù)據(jù)集中的熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合得到熱門行業(yè)聚類結(jié)果;
通過氣泡圖標(biāo)識(shí)所述聚類結(jié)果;
所述基于所述主題向量集得到所述分組數(shù)據(jù)集中的熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合包括:
獲取每個(gè)數(shù)據(jù)網(wǎng)絡(luò)集合的熱度屬性;
根據(jù)所述熱度屬性提取疑似熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合;
獲取疑似熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合的相關(guān)度矩陣;
獲取所述相關(guān)度矩陣中數(shù)值大于預(yù)設(shè)相關(guān)度閾值的元素;
若所述元素總數(shù)大于預(yù)設(shè)的熱度閾值,則所述疑似熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)被判定為熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò);
所述根據(jù)各個(gè)分組數(shù)據(jù)集中的熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合得到熱門行業(yè)聚類結(jié)果包括:
獲取每個(gè)分組數(shù)據(jù)集中的熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合;
獲取每個(gè)所述熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合對(duì)應(yīng)的N個(gè)熱點(diǎn)主題;
根據(jù)各個(gè)熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合對(duì)應(yīng)的熱點(diǎn)主題得到所述分組數(shù)據(jù)集的M個(gè)熱點(diǎn)主題;其中,所述熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合對(duì)應(yīng)的熱點(diǎn)主題的獲取方法包括:計(jì)算所述熱點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)集合的相關(guān)度矩陣中每一行的元素的總和值;選取所述總和值最大的N行,得到其對(duì)應(yīng)的主題,即為熱點(diǎn)主題;
根據(jù)所述M個(gè)熱點(diǎn)主題進(jìn)行聚類得到熱門行業(yè)聚類結(jié)果;
所述聚類包括:
計(jì)算兩個(gè)熱點(diǎn)主題之間的不相似性,并得到不相似性矩陣R={rij}n*n;
初始化行業(yè)類別ω;
獲取各個(gè)熱點(diǎn)主題對(duì)于行業(yè)類別的隸屬度;
獲取各個(gè)熱點(diǎn)主題對(duì)于行業(yè)類別的貢獻(xiàn)度;
輸出基于所述隸屬度和貢獻(xiàn)度表示的聚類結(jié)果;所述隸屬度以u(píng)表示,uik表示熱點(diǎn)主題xi對(duì)行業(yè)類別ωk的隸屬度,所述貢獻(xiàn)度以v表示,vkj表示熱點(diǎn)主題xj對(duì)行業(yè)類別ωk的貢獻(xiàn)權(quán)重;
隸屬度根據(jù)公式(一):計(jì)算,貢獻(xiàn)度根據(jù)公式(二):以M個(gè)熱點(diǎn)主題為輸入,根據(jù)公式(一)和公式(二)進(jìn)行迭代計(jì)算,從而得到各個(gè)熱點(diǎn)主題對(duì)于行業(yè)類別的隸屬度和貢獻(xiàn)度;公式(一)和公式(二)中的φ和β為與聚類精度有關(guān)的常數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
所述氣泡圖以分組數(shù)據(jù)集所對(duì)應(yīng)的時(shí)間段為橫軸,以氣泡標(biāo)識(shí)各個(gè)分組數(shù)據(jù)集中熱門主題的聚類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京人民在線網(wǎng)絡(luò)有限公司,未經(jīng)北京人民在線網(wǎng)絡(luò)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811644123.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 運(yùn)動(dòng)行業(yè)卡
- 支持行業(yè)應(yīng)用空中下載的方法、系統(tǒng)及裝置
- 行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務(wù)器
- 機(jī)箱(行業(yè)版)
- 鐵路行業(yè)服
- 酒精行業(yè)及淀粉行業(yè)乏汽余熱回收裝置
- 文本分類方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 基于行業(yè)畫像的行業(yè)利潤(rùn)預(yù)測(cè)方法、系統(tǒng)、介質(zhì)及終端
- 一種行業(yè)主體審核方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種選擇目標(biāo)行業(yè)方法及系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





