[發(fā)明專利]一種文本聚類元學(xué)習(xí)方法及裝置有效
| 申請?zhí)枺?/td> | 200710117752.6 | 申請日: | 2007-06-22 |
| 公開(公告)號: | CN101079072A | 公開(公告)日: | 2007-11-28 |
| 發(fā)明(設(shè)計)人: | 向繼;夏魯寧;荊繼武;馮登國 | 申請(專利權(quán))人: | 中國科學(xué)院研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 | 代理人: | 宋志強(qiáng);麻海明 |
| 地址: | 100039北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 聚類元 學(xué)習(xí)方法 裝置 | ||
1、一種文本聚類元學(xué)習(xí)方法,其特征在于,該方法包括以下步驟:
A、用文本分析方法對文本集進(jìn)行軟聚類或軟分類處理,得到至少兩個聚類或分類結(jié)果;
B、將所述聚類或分類結(jié)果分別表示成處理結(jié)果矩陣,將所述處理結(jié)果矩陣拼接成文本向量矩陣;
C、對所述文本向量矩陣進(jìn)行元學(xué)習(xí),得到最終聚類結(jié)果。
2、根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟A中的文本分析方法為軟聚類方法和/或軟分類方法。
3、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B中的將所述處理結(jié)果矩陣拼接成文本向量矩陣包括:將所述處理結(jié)果矩陣分別乘上預(yù)先設(shè)置的權(quán)值后,再將所有的處理結(jié)果矩陣拼接成文本向量矩陣。
4、根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A之前還包括:對所述文本集進(jìn)行預(yù)處理;所述預(yù)處理包括:分詞、特征選取和文本向量化。
5、一種文本聚類元學(xué)習(xí)裝置,其特征在于,該裝置包括:文本分析模塊、矩陣合成模塊和元學(xué)習(xí)模塊;
所述文本分析模塊,用于對文本集進(jìn)行軟聚類或軟分類處理,將得到的聚類或分類結(jié)果發(fā)送給所述矩陣合成模塊;
所述矩陣合成模塊,用于將所接收到的聚類或分類結(jié)果轉(zhuǎn)化成矩陣,并將轉(zhuǎn)化后的矩陣拼接成文本向量矩陣,將所述文本向量矩陣發(fā)送給所述元學(xué)習(xí)模塊;
所述元學(xué)習(xí)模塊,用于對接收到的文本向量矩陣進(jìn)行元學(xué)習(xí),輸出最終聚類結(jié)果。
6、根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括:預(yù)處理模塊;
所述預(yù)處理模塊,用于對文本集中的文本進(jìn)行文本向量化,將文本向量化后的文本集發(fā)送給所述文本分析模塊。
7、根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述預(yù)處理模塊包括:分詞單元、特征選取單元和文本向量化單元;
所述分詞單元,用于將文本集中的文本劃分為單個的詞,并統(tǒng)計每個詞在文本集中出現(xiàn)的次數(shù),將劃分結(jié)果和統(tǒng)計結(jié)果發(fā)送給所述特征選取單元;
所述特征選取單元,用于根據(jù)接收到的劃分結(jié)果和統(tǒng)計結(jié)果,從文本集中選取特征詞,將選取的特征詞發(fā)送給所述文本向量化單元;
所述文本向量化單元,用于根據(jù)接收到的特征詞將文本集中的文本轉(zhuǎn)化成文本向量,將文本向量化后的文本集發(fā)送給所述文本分析模塊。
8、根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述矩陣合成模塊包括:矩陣化單元和合成單元;
所述矩陣化單元,用于將接收到的聚類或分類結(jié)果轉(zhuǎn)化成矩陣,將轉(zhuǎn)化后的矩陣發(fā)送給所述合成單元;
所述合成單元,用于將接收到的所有轉(zhuǎn)化后的矩陣拼接成一個文本向量矩陣,將所述文本向量矩陣發(fā)送給所述元學(xué)習(xí)模塊。
9、根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述元學(xué)習(xí)模塊包括:歸一化單元和學(xué)習(xí)單元;
所述歸一化單元,用于對接收到的文本向量矩陣進(jìn)行歸一化處理,將歸一化后的文本向量矩陣發(fā)送給所述學(xué)習(xí)單元;
所述學(xué)習(xí)單元,用于對接收到的歸一化后的文本向量矩陣進(jìn)行元學(xué)習(xí),輸出最終聚類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院研究生院,未經(jīng)中國科學(xué)院研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710117752.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種文本聚類元學(xué)習(xí)方法及裝置
- 一種面向互聯(lián)網(wǎng)微內(nèi)容的分布式聚類方法
- 基于距離參數(shù)的大規(guī)模文本聚類方法
- 一種基于SOM的建筑多目標(biāo)優(yōu)化設(shè)計決策支持方法
- 一種基于毗鄰網(wǎng)格搜索的聚類方法
- 一種基于日負(fù)荷曲線的電力負(fù)荷聚類結(jié)果評價方法
- 一種基于元學(xué)習(xí)的車輛軌跡聚類方法及系統(tǒng)
- 告警聚類方法、裝置及存儲介質(zhì)
- 數(shù)據(jù)關(guān)系識別方法、裝置、電子設(shè)備及存儲介質(zhì)
- 主機(jī)聚類方法及裝置
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法





