[發(fā)明專利]一種文本聚類方法、文本聚類裝置及終端設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201811495672.9 | 申請(qǐng)日: | 2018-12-07 |
| 公開(kāi)(公告)號(hào): | CN109766437A | 公開(kāi)(公告)日: | 2019-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 劉志勇;吳又奎;任曉德 | 申請(qǐng)(專利權(quán))人: | 中科恒運(yùn)股份有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F17/27 |
| 代理公司: | 石家莊國(guó)為知識(shí)產(chǎn)權(quán)事務(wù)所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聚類 文本聚類 文本 文本特征 文本向量 終端設(shè)備 詞向量 分詞預(yù)處理 聚類結(jié)果 聚類模型 詞轉(zhuǎn)換 準(zhǔn)確率 預(yù)設(shè) 疊加 申請(qǐng) 學(xué)習(xí) | ||
1.一種文本聚類方法,其特征在于,包括:
獲取至少兩個(gè)待聚類文本,并分別對(duì)每個(gè)待聚類文本進(jìn)行分詞預(yù)處理得到多個(gè)文本特征詞;
利用Word2vec分別將每個(gè)文本特征詞轉(zhuǎn)換成詞向量,并將所述待聚類文本中的所有詞向量進(jìn)行疊加得到所述待聚類文本的文本向量;
利用預(yù)設(shè)的聚類模型對(duì)所述待聚類文本的文本向量進(jìn)行聚類,得到聚類結(jié)果。
2.如權(quán)利要求1所述的文本聚類方法,其特征在于,所述分別對(duì)每個(gè)待聚類文本進(jìn)行分詞預(yù)處理得到多個(gè)文本特征詞,包括:
去除所述訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)得到第一預(yù)處理文本;
去除所述第一預(yù)處理文本中的停用詞得到第二預(yù)處理文本;
對(duì)所述第二預(yù)處理文本進(jìn)行分詞處理得到多個(gè)文本特征詞。
3.如權(quán)利要求1所述的文本聚類方法,其特征在于,所述將所述待聚類文本中的所有詞向量進(jìn)行疊加得到所述待聚類文本的文本向量,包括:
利用TF-IDF算法計(jì)算每個(gè)文本特征詞的權(quán)值;
將所述文本特征詞的詞向量乘以該文本特征詞對(duì)應(yīng)的權(quán)值得到所述文本特征詞的特征向量;
將所有的文本特征詞的特征向量進(jìn)行疊加得到所述待聚類文本的文本向量。
4.如權(quán)利要求1所述的文本聚類方法,其特征在于,所述利用預(yù)設(shè)的聚類模型對(duì)所述待聚類文本的文本向量進(jìn)行聚類,得到聚類結(jié)果,包括:
獲取初始化參數(shù),所述初始化參數(shù)包括預(yù)設(shè)閾值和預(yù)設(shè)學(xué)習(xí)率;
從所有的文本向量中選取一個(gè)文本向量標(biāo)記為中心向量,將所有的文本向量中除所述中心向量外的文本向量標(biāo)記為待聚類向量,并依次將每個(gè)待聚類向量輸入所述聚類模型進(jìn)行聚類;
在所有的待聚類向量均已輸入所述聚類模型之后,輸出聚類結(jié)果。
5.如權(quán)利要求4所述的文本聚類方法,其特征在于,所述依次將每個(gè)待聚類向量輸入所述聚類模型進(jìn)行聚類,包括:
通過(guò)netij=WiXj計(jì)算所述待聚類向量與所述中心向量之間的激活值,所述netij為第j個(gè)待聚類向量與第i個(gè)中心向量之間的激活值,所述Wi為第i個(gè)中心向量,所述Xj為第j個(gè)待聚類向量;
從計(jì)算出的所述待聚類向量與所述中心向量之間的所有激活值中選擇最大的激活值,將所述最大的激活值對(duì)應(yīng)的中心向量作為目標(biāo)向量,并判斷所述最大的激活值是否大于所述預(yù)設(shè)閾值;
若所述最大的激活值大于所述預(yù)設(shè)閾值,則利用Wt=Wt+ηXj對(duì)所述目標(biāo)向量進(jìn)行更新,所述Wt為所述目標(biāo)向量,所述η為所述預(yù)設(shè)學(xué)習(xí)率;
若所述最大的激活值小于或等于所述預(yù)設(shè)閾值,則將所述待聚類向量標(biāo)記為中心向量,并將中心向量的個(gè)數(shù)加1。
6.如權(quán)利要求5所述的文本聚類方法,其特征在于,在得到聚類結(jié)果之后,還包括:
獲取所述聚類結(jié)果中的中心向量以及每一類中包含的文本向量,并統(tǒng)計(jì)中心向量的個(gè)數(shù),將所述中心向量的個(gè)數(shù)作為類的個(gè)數(shù);
利用計(jì)算聚類指數(shù),并判斷所述聚類指數(shù)是否在預(yù)設(shè)范圍內(nèi);
若所述聚類指數(shù)不在預(yù)設(shè)范圍內(nèi),則重新利用預(yù)設(shè)的聚類模型對(duì)所述待聚類文本的文本向量進(jìn)行聚類;
其中,所述DB為所述聚類指數(shù),所述K為所述類的個(gè)數(shù),所述Dm表示第m類中所有文本向量到第m類的中心向量的平均距離,所述Dn表示第n類中所有文本向量到第n類的中心向量的平均距離,所述Cmn表示第m類的中心向量與第n類的中心向量之間的距離。
7.如權(quán)利要求1所述的文本聚類方法,其特征在于,在利用預(yù)設(shè)的聚類模型對(duì)所述待聚類文本的文本向量進(jìn)行聚類之前,還包括:
對(duì)所述文本向量進(jìn)行歸一化處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科恒運(yùn)股份有限公司,未經(jīng)中科恒運(yùn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811495672.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)聚類方法和裝置
- 人臉聚類方法、裝置、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種鞋底花紋圖像的特征弱相關(guān)聚類方法
- 數(shù)據(jù)聚類方法及裝置
- 數(shù)據(jù)聚類方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 人臉聚類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 視頻聚類方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 向量聚類訓(xùn)練方法及裝置
- 一種客服對(duì)話語(yǔ)料聚類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法
- 模型訓(xùn)練方法、文本識(shí)別方法、裝置及計(jì)算設(shè)備
- 一種多文本分類方法和裝置
- 一種文本規(guī)整方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本評(píng)分方法、裝置和系統(tǒng)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 文本處理方法、文本模型的處理方法及裝置、計(jì)算機(jī)設(shè)備
- 文本分類模型訓(xùn)練方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 文本意圖識(shí)別方法、裝置以及相關(guān)設(shè)備
- 文本相似度計(jì)算方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





