[發(fā)明專(zhuān)利]文獻(xiàn)聚類(lèi)、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011572311.7 | 申請(qǐng)日: | 2020-12-25 |
| 公開(kāi)(公告)號(hào): | CN112667810A | 公開(kāi)(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 柴玲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06K9/62;G06F40/258;G06F40/284 |
| 代理公司: | 廣州三環(huán)專(zhuān)利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng) |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文獻(xiàn) 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,具體涉及一種文獻(xiàn)聚類(lèi)、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。該方法包括:獲取N篇待聚類(lèi)文獻(xiàn),N為大于1的整數(shù);確定所述N篇待聚類(lèi)文獻(xiàn)中任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度;根據(jù)所述任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度,對(duì)所述N篇待聚類(lèi)文獻(xiàn)進(jìn)行第一次聚類(lèi),得到M個(gè)聚類(lèi)簇,其中,所述M個(gè)聚類(lèi)簇對(duì)應(yīng)K篇待聚類(lèi)文獻(xiàn),M為大于或等于1的整數(shù),K為小于或等于N的整數(shù);對(duì)剩余的(N?K)篇待聚類(lèi)文獻(xiàn)進(jìn)行第二次聚類(lèi),以將所述(N?K)篇待聚類(lèi)文獻(xiàn)融合到所述M個(gè)聚類(lèi)簇。本申請(qǐng)實(shí)施例有利于提高文獻(xiàn)的聚類(lèi)精度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,具體涉及一種文獻(xiàn)聚類(lèi)、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,使用基于引用關(guān)系的相似度,一般可以較好地度量文獻(xiàn)主題之間的相似度,但是,為了對(duì)文獻(xiàn)之間的相似度進(jìn)行補(bǔ)充,引入了文獻(xiàn)之間的文本相似度綜合度量文獻(xiàn)主題之間的相似度,即將多種指標(biāo)放在同一空間度量文獻(xiàn)主題的相似度;在度量出文獻(xiàn)主題之間的相似度之后,可使用單一的聚類(lèi)算法或者社團(tuán)檢測(cè)算法,將多篇文獻(xiàn)進(jìn)行聚類(lèi)。
然而,引入了文本相似度之后,會(huì)使構(gòu)成的聚類(lèi)網(wǎng)絡(luò)非常稠密,這樣會(huì)使得聚類(lèi)粒度變粗,降低了對(duì)文獻(xiàn)的聚類(lèi)精度。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了一種文獻(xiàn)聚類(lèi)、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過(guò)兩次聚類(lèi),提高聚類(lèi)精度。
第一方面,本申請(qǐng)實(shí)施例提供一種文獻(xiàn)聚類(lèi)方法,包括:
獲取N篇待聚類(lèi)文獻(xiàn),N為大于1的整數(shù);
確定所述N篇待聚類(lèi)文獻(xiàn)中任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度;
根據(jù)所述任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度,對(duì)所述N篇待聚類(lèi)文獻(xiàn)進(jìn)行第一次聚類(lèi),得到M個(gè)聚類(lèi)簇,其中,所述M個(gè)聚類(lèi)簇對(duì)應(yīng)K篇待聚類(lèi)文獻(xiàn),M為大于或等于1的整數(shù),K為小于或等于N的整數(shù);
對(duì)剩余的(N-K)篇待聚類(lèi)文獻(xiàn)進(jìn)行第二次聚類(lèi),以將所述(N-K)篇待聚類(lèi)文獻(xiàn)融合到所述M個(gè)聚類(lèi)簇。
第二方面,本申請(qǐng)實(shí)施例提供一種文獻(xiàn)聚類(lèi)裝置,包括:
獲取單元,用于獲取N篇待聚類(lèi)文獻(xiàn),N為大于1的整數(shù);
處理單元,用于確定所述N篇待聚類(lèi)文獻(xiàn)中任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度;
根據(jù)所述任意兩篇待聚類(lèi)文獻(xiàn)之間的共被引相似度,對(duì)所述N篇待聚類(lèi)文獻(xiàn)進(jìn)行第一次聚類(lèi),得到M個(gè)聚類(lèi)簇,其中,所述M個(gè)聚類(lèi)簇對(duì)應(yīng)K篇待聚類(lèi)文獻(xiàn),M為大于或等于1的整數(shù),K為小于或等于N的整數(shù);
對(duì)剩余的(N-K)篇待聚類(lèi)文獻(xiàn)進(jìn)行第二次聚類(lèi),以將所述(N-K)篇待聚類(lèi)文獻(xiàn)融合到所述M個(gè)聚類(lèi)簇。
第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括:處理器,所述處理器與存儲(chǔ)器相連,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序,以使得所述電子設(shè)備執(zhí)行如第一方面所述的方法。
第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序使得計(jì)算機(jī)執(zhí)行如第一方面所述的方法。
第五方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括存儲(chǔ)了計(jì)算機(jī)程序的非瞬時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可操作來(lái)使計(jì)算機(jī)執(zhí)行如第一方面所述的方法。
實(shí)施本申請(qǐng)實(shí)施例,具有如下有益效果:
可以看出,在本申請(qǐng)實(shí)施例中,首先根據(jù)文獻(xiàn)之間的共被引相似度對(duì)N篇聚類(lèi)文獻(xiàn)進(jìn)行聚類(lèi),得到M個(gè)聚類(lèi)簇,由于,使用共被引相似度能夠得到比較精確的聚類(lèi)簇,所以,該M個(gè)聚類(lèi)簇的精度較高;然后,再不改變聚類(lèi)粒度的情況下,將剩余未處于該M個(gè)聚類(lèi)簇中的文獻(xiàn)進(jìn)行第二次聚類(lèi),融合到該M個(gè)聚類(lèi)簇,從而不會(huì)降低聚類(lèi)粒度,提高了聚類(lèi)精度。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011572311.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語(yǔ)種文獻(xiàn)分類(lèi)方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類(lèi)存儲(chǔ)方法和裝置





