[發明專利]用于文本聚類的方法、電子設備和存儲介質有效
| 申請號: | 202011491126.5 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112256842B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 尹揚;郭鵬華 | 申請(專利權)人: | 上海朝陽永續信息技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/284 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華 |
| 地址: | 201203 上海市浦東新區中*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 文本 方法 電子設備 存儲 介質 | ||
1.一種用于文本聚類的方法,包括:
基于文本庫,確定待聚類的多個第一文本中的每個詞語的詞頻-逆文檔頻率;
從所述多個第一文本中的多個文本標題中去除實體標識,以生成多個非實體標題;
基于所述多個非實體標題中的每個詞語的詞頻-逆文檔頻率和詞袋模型,確定與所述多個非實體標題相關聯的多個第一特征表示;
基于所述多個第一特征表示和第一密度半徑,對所述多個第一文本進行密度聚類,以生成多個第一文本聚類和未被聚類的多個第二文本;
基于所述多個第二文本中的每個詞語的詞頻-逆文檔頻率和所述詞袋模型,確定與所述多個第二文本相關聯的多個第二特征表示;以及
基于所述多個第二特征表示和第二密度半徑,對所述多個第二文本進行密度聚類,以生成多個第二文本聚類,所述第二密度半徑大于所述第一密度半徑;
所述方法還包括對于所述多個第二文本聚類中的每個第二文本聚類,執行以下步驟:
從所述第二文本聚類確定核心文本集,所述核心文本集中的任一核心文本與所述第二文本聚類中的至少預定數量個文本之間的距離均小于所述第二密度半徑;
從所述核心文本集確定分割文本集,所述分割文本集中的任一分割文本被從所述核心文本集中去除后,剩余的多個核心文本可分為多個第一連通子集;
從所述第二文本聚類去除所述分割文本集以及與所述分割文本集之間的距離小于所述第二密度半徑的非核心文本集,以生成剩余文本集;
如果確定所述剩余文本集能夠被劃分為多個第二連通子集,則:
將所述多個第二連通子集作為所述第二文本聚類分割后的多個第三文本聚類;以及
基于所述第二密度半徑,將所述分割文本集和所述非核心文本集劃分到所述多個第三文本聚類。
2.根據權利要求1所述的方法,還包括對于所述多個第二文本聚類和所述多個第三文本聚類中的每個文本聚類,執行以下步驟:
確定所述文本聚類中的兩兩文本之間的最大距離;以及
如果確定所述最大距離大于閾值,則基于所述多個第二特征表示和第三密度半徑,對所述文本聚類進行密度聚類,以生成多個第四文本聚類,所述第三密度半徑小于所述第二密度半徑。
3.根據權利要求2所述的方法,還包括對所述多個第一文本聚類、所述多個第二文本聚類、所述多個第三文本聚類和所述多個第四文本聚類中的至少一個文本聚類,執行以下步驟:
基于標點符號,將所述文本聚類中的多個文本標題劃分為多個標題片段;
基于所述多個標題片段中的每個詞語的片段出現頻率,確定與所述多個標題片段相關聯的多個第一分數;
基于所述多個標題片段中的每個詞語的詞頻-逆文檔頻率和所述詞袋模型,確定與所述多個標題片段相關聯的多個特征表示;
基于與所述多個標題片段相關聯的多個特征表示,對所述多個標題片段進行密度聚類,以生成多個片段聚類;
基于與所述多個標題片段相關聯的多個第一分數,確定與所述多個片段聚類相關聯的多個第二分數;
從所述多個片段聚類中確定第二分數最高的第一片段聚類;以及
從所述第一片段聚類中包括片段出現頻率最高的詞語的多個標題片段中確定最短的標題片段,作為所述文本聚類的聚類標題。
4.根據權利要求1所述的方法,其中確定所述多個第一特征表示包括對于所述多個非實體標題中的每個非實體標題,執行以下步驟:
確定所述非實體標題中包括的多個詞語的多個詞頻-逆文檔頻率;
基于所述詞袋模型,生成包括所述多個詞頻-逆文檔頻率的向量;以及
對所述向量進行L2范數標準化,以生成與所述非實體標題相關聯的第一特征表示。
5.根據權利要求1所述的方法,其中對所述多個第一文本進行密度聚類包括:
基于所述多個第一特征表示,確定所述多個第一文本中的兩兩文本之間的相似度;以及
基于所述相似度和所述第一密度半徑,對所述多個第一文本進行密度聚類,以生成所述多個第一文本聚類和未被聚類的所述多個第二文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海朝陽永續信息技術股份有限公司,未經上海朝陽永續信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011491126.5/1.html,轉載請聲明來源鉆瓜專利網。





