[發(fā)明專利]文檔聚類的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410200769.8 | 申請(qǐng)日: | 2014-05-13 |
| 公開(公告)號(hào): | CN105095275B | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 周光有;薛偉;管剛 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所;騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 滕一斌 |
| 地址: | 100080 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 方法 裝置 | ||
1.一種文檔聚類的方法,其特征在于,所述方法包括:
根據(jù)待聚類的文檔獲取檢索詞-文檔矩陣,根據(jù)所述檢索詞-文檔矩陣中的檢索詞獲取初始化的非負(fù)檢索詞-主題矩陣,并根據(jù)所述檢索詞-文檔矩陣中的文檔獲取初始化的非負(fù)主題-文檔矩陣;
對(duì)所述非負(fù)檢索詞-主題矩陣及所述非負(fù)主題-文檔矩陣進(jìn)行正則化,得到正則化的非負(fù)檢索詞-主題矩陣及正則化的非負(fù)主題-文檔矩陣;
根據(jù)所述檢索詞-文檔矩陣、所述非負(fù)檢索詞-主題矩陣、所述非負(fù)主題-文檔矩陣、所述正則化的非負(fù)檢索詞-主題矩陣及正則化的非負(fù)主題-文檔矩陣確定目標(biāo)函數(shù);
確定使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣及非負(fù)主題-文檔矩陣,并根據(jù)使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣及非負(fù)主題-文檔矩陣對(duì)所述待聚類的文檔進(jìn)行聚類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述非負(fù)檢索詞-主題矩陣及所述非負(fù)主題-文檔矩陣進(jìn)行正則化,得到正則化的非負(fù)檢索詞-主題矩陣及正則化的非負(fù)主題-文檔矩陣,包括:
根據(jù)正則化中的第一范數(shù)L1對(duì)所述非負(fù)檢索詞-主題矩陣進(jìn)行正則化,得到正則化的非負(fù)檢索詞-主題矩陣;
根據(jù)正則化中的第二范數(shù)L2對(duì)所述非負(fù)主題-文檔矩陣進(jìn)行正則化,得到正則化的非負(fù)主題-文檔矩陣。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣及非負(fù)主題-文檔矩陣,包括:
根據(jù)上一次得到的非負(fù)檢索詞-主題矩陣獲取更新的非負(fù)檢索詞-主題矩陣,并根據(jù)上一次得到的非負(fù)主題-文檔矩陣獲取更新的非負(fù)主題-文檔矩陣;
對(duì)所述更新的非負(fù)檢索詞-主題矩陣進(jìn)行正則化,得到正則化的更新的非負(fù)檢索詞-主題矩陣,并對(duì)所述更新的非負(fù)主題-文檔矩陣進(jìn)行正則化,得到正則化的更新的非負(fù)檢索詞-主題矩陣;
根據(jù)所述檢索詞-文檔矩陣、更新的非負(fù)檢索詞-主題矩陣、更新的非負(fù)主題-文檔矩陣、正則化的更新的非負(fù)檢索詞-主題矩陣、正則化的更新的非負(fù)主題-文檔矩陣確定所述目標(biāo)函數(shù)是否已最小化;
如果所述目標(biāo)函數(shù)未最小化,則重新根據(jù)上一次得到的非負(fù)檢索詞-主題矩陣獲取更新的非負(fù)檢索詞-主題矩陣,并根據(jù)上一次得到的非負(fù)主題-文檔矩陣獲取更新的非負(fù)主題-文檔矩陣;對(duì)所述更新的非負(fù)檢索詞-主題矩陣進(jìn)行正則化,得到正則化的更新的非負(fù)檢索詞-主題矩陣,并對(duì)所述更新的非負(fù)主題-文檔矩陣進(jìn)行正則化,得到正則化的更新的非負(fù)檢索詞-主題矩陣;根據(jù)所述檢索詞-文檔矩陣、更新的非負(fù)檢索詞-主題矩陣、更新的非負(fù)主題-文檔矩陣、正則化的更新的非負(fù)檢索詞-主題矩陣、正則化的更新的非負(fù)主題-文檔矩陣確定所述目標(biāo)函數(shù)是否已最小化,直至得到使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣及非負(fù)主題-文檔矩陣。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣及非負(fù)主題-文檔矩陣對(duì)所述待聚類的文檔進(jìn)行聚類,包括:
對(duì)使所述目標(biāo)函數(shù)最小化的非負(fù)檢索詞-主題矩陣進(jìn)行歸一化;
根據(jù)歸一化的非負(fù)檢索詞-主題矩陣對(duì)使所述目標(biāo)函數(shù)最小化的非負(fù)主題-文檔矩陣進(jìn)行歸一化;
根據(jù)歸一化的非負(fù)主題-文檔矩陣對(duì)所述待聚類的文檔進(jìn)行聚類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所;騰訊科技(深圳)有限公司,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所;騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410200769.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





