[發(fā)明專利]一種文檔聚類方法及設備有效
| 申請?zhí)枺?/td> | 201711423310.4 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN110019806B | 公開(公告)日: | 2021-08-06 |
| 發(fā)明(設計)人: | 符晶晶;盛家波 | 申請(專利權)人: | 中移動信息技術有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 北京同達信恒知識產(chǎn)權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 102209 北京市昌平區(qū)未來*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 方法 設備 | ||
本發(fā)明公開了一種文檔聚類方法及設備,所述方法包括:確定待聚類的文檔中的每篇文檔的備選詞集合包括的詞的重要性值,所述備選詞集合包括對所述每篇文檔進行分詞處理后獲得的詞,所述重要性值用于表示詞與所述詞所在的文檔的關聯(lián)程度;確定所述每篇文檔的備選詞集合中重要性值位于預設范圍內(nèi)的至少一個詞;將所述至少一個詞組成所述每篇文檔的多元組,所述多元組用于完成對所述每篇文檔的聚類;確定待聚類的文檔中的所有文檔的多元組之間的相似度,根據(jù)相似度將待聚類的文檔中的所有文檔聚合為至少一個簇,其中,同一個簇中包括的文檔的多元組之間的相似度位于設定范圍內(nèi)。
技術領域
本發(fā)明涉及自然語言處理技術領域,尤其涉及一種文檔聚類方法及設備。
背景技術
隨著自然語言處理技術(Natural Language Processing,NLP)的不斷發(fā)展及文檔數(shù)量的快速增長,給文檔查詢帶來了較大的工作量。為了方便用戶查找文檔,對文檔進行聚類成為人們?nèi)找骊P注的問題。其中,文檔聚類是根據(jù)文檔中包括的詞的種類、出現(xiàn)的頻率等,將相似的文檔聚為同一類。
目前,對文檔進行聚類的過程主要包括:對文檔進行分詞處理,根據(jù)分詞處理得到的詞,使用如K-means算法等基于距離的聚類算法,或使用如潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)等基于詞袋(bag of words)的聚類方法,對文檔進行聚類。然而,對文檔進行分詞處理后,得到的詞較多,分詞處理后得到的詞通常還包括與文檔主題無關的詞,因此,直接使用分詞處理得到的詞進行文檔聚類,會導致文檔聚類的結(jié)果不準確。
所以,現(xiàn)有技術中,存在文檔聚類不準確的技術問題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文檔聚類方法及設備,用于解決現(xiàn)有技術中,存在文檔聚類不準確的技術問題。
為此,本發(fā)明實施例提供的技術方案如下:
第一方面,提供一種文檔聚類方法,包括:
確定待聚類的文檔中的每篇文檔的備選詞集合包括的詞的重要性值,所述備選詞集合包括對所述每篇文檔進行分詞處理后獲得的詞,所述重要性值用于表示詞與所述詞所在的文檔的關聯(lián)程度;
確定所述每篇文檔的備選詞集合中重要性值位于預設范圍內(nèi)的至少一個詞;
將所述至少一個詞組成所述每篇文檔的多元組,所述多元組用于完成對所述每篇文檔的聚類;
確定待聚類的文檔中的所有文檔的多元組之間的相似度,根據(jù)相似度將待聚類的文檔中的所有文檔聚合為至少一個簇,其中,同一個簇中包括的文檔的多元組之間的相似度位于設定范圍內(nèi)。
可選的,所述方法還包括:
獲取所述每篇文檔的標題;
對所述每篇文檔的標題進行分詞處理;
根據(jù)所述每篇文檔的分詞處理結(jié)果得到所述每篇文檔的備選詞集合。
可選的,根據(jù)所述每篇文檔的分詞處理結(jié)果得到所述每篇文檔的備選詞集合,包括:
將所述每篇文檔的分詞處理結(jié)果進行詞性過濾,獲得所述每篇文檔中的詞性為名詞和/或動詞的目標詞;
將所述每篇文檔的目標詞組成所述每篇文檔的備選詞集合。
可選的,所述確定待聚類的文檔中的所有文檔的多元組之間的相似度,包括:
獲取所述每篇文檔的多元組的詞向量模型;
確定待聚類的文檔中的所有文檔的多元組的詞向量模型之間的相似度。
可選的,所述獲取每篇文檔的多元組的詞向量模型,包括:
獲取所述每篇文檔的多元組中的每個詞的詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移動信息技術有限公司;中國移動通信集團有限公司,未經(jīng)中移動信息技術有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711423310.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





