[發(fā)明專利]短文本聚類方法、裝置、電子設備、存儲介質及程序產(chǎn)品在審
| 申請?zhí)枺?/td> | 202110039760.3 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112650853A | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設計)人: | 不公告發(fā)明人 | 申請(專利權)人: | 拉卡拉支付股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 北京智宇正信知識產(chǎn)權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 電子設備 存儲 介質 程序 產(chǎn)品 | ||
本公開實施例公開了一種短文本聚類方法、裝置、電子設備、存儲介質及程序產(chǎn)品,所述方法包括:獲取兩個或多個短文本,對于所述短文本進行分詞處理,得到所述短文本對應的詞集合;基于所述詞集合計算所述短文本之間的相似性;基于所述短文本和短文本之間的相似性生成短文本關系圖,基于所述短文本關系圖對于所述短文本進行聚類,得到短文本聚類結果。
技術領域
本公開實施例涉及數(shù)據(jù)處理技術領域,具體涉及一種短文本聚類方法、裝置、電子設備、存儲介質及程序產(chǎn)品。
背景技術
隨著互聯(lián)網(wǎng)技術的高速普及以及信息技術的飛速發(fā)展,需要被分析的數(shù)據(jù)量越來越龐大,數(shù)據(jù)之間的關系也變得越來越復雜。聚類分析是一種常見的數(shù)據(jù)分析方法,其是以相似性為基礎,將數(shù)據(jù)劃分為多個數(shù)據(jù)群,每個數(shù)據(jù)群內部數(shù)據(jù)之間的相似性要高于不同數(shù)據(jù)群間數(shù)據(jù)之間的相似性。當前社交媒體的發(fā)展使得文本數(shù)據(jù)量飛速增長,且通常以短文本的形式出現(xiàn),比如微博、產(chǎn)品評論以及商品搜索文本等等,這些文本信息在信息推薦以及信息風控中通常是較為重要的信息,現(xiàn)有技術中通常使用傳統(tǒng)的基于數(shù)據(jù)信息轉換的文本聚類方法對于文本信息進行聚類處理,以進行后續(xù)的推薦或風控操作,但該方法處理過程繁雜,數(shù)據(jù)量大,計算復雜度高,計算時間長,因此,如何快速挖掘出短文本之間的相似性成為一個新的挑戰(zhàn)。
發(fā)明內容
本公開實施例提供一種短文本聚類方法、裝置、電子設備、存儲介質及程序產(chǎn)品。
第一方面,本公開實施例中提供了一種短文本聚類方法。
具體的,所述短文本聚類方法,包括:
獲取兩個或多個短文本,對于所述短文本進行分詞處理,得到所述短文本對應的詞集合;
基于所述詞集合計算所述短文本之間的相似性;
基于所述短文本和短文本之間的相似性生成短文本關系圖,基于所述短文本關系圖對于所述短文本進行聚類,得到短文本聚類結果。
結合第一方面,本公開實施例在第一方面的第一種實現(xiàn)方式中,所述得到所述短文本對應的詞集合之后,還包括:
對于所述詞集合中的詞進行去重。
結合第一方面和第一方面的第一種實現(xiàn)方式,本公開實施例在第一方面的第二種實現(xiàn)方式中,所述基于所述詞集合計算所述短文本之間的相似性,被實施為:
基于所述詞集合計算所述短文本之間的杰卡德相似性。
結合第一方面、第一方面的第一種實現(xiàn)方式和第一方面的第二種實現(xiàn)方式,本公開在第一方面的第三種實現(xiàn)方式中,所述基于所述短文本和短文本之間的相似性生成短文本關系圖,被實施為:
以所述短文本為節(jié)點,連接節(jié)點形成邊,以短文本之間的相似性作為相應邊的權重,生成所述短文本關系圖。
結合第一方面、第一方面的第一種實現(xiàn)方式、第一方面的第二種實現(xiàn)方式和第一方面的第三種實現(xiàn)方式,本公開在第一方面的第四種實現(xiàn)方式中,所述基于所述短文本關系圖對于所述短文本進行聚類,得到短文本聚類結果,被實施為:
基于所述短文本關系圖,利用社區(qū)挖掘算法對于所述短文本進行聚類,得到短文本聚類結果。
結合第一方面、第一方面的第一種實現(xiàn)方式、第一方面的第二種實現(xiàn)方式、第一方面的第三種實現(xiàn)方式和第一方面的第四種實現(xiàn)方式,本公開在第一方面的第五種實現(xiàn)方式中,還包括:
根據(jù)所述短文本聚類結果執(zhí)行預設操作。
第二方面,本公開實施例中提供了一種短文本聚類裝置。
具體的,所述短文本聚類裝置,包括:
分詞模塊,被配置為獲取兩個或多個短文本,對于所述短文本進行分詞處理,得到所述短文本對應的詞集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拉卡拉支付股份有限公司,未經(jīng)拉卡拉支付股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110039760.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





