[發明專利]文本聚類方法及裝置在審
| 申請號: | 202010713845.0 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN112036176A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 劉澤城 | 申請(專利權)人: | 大箴(杭州)科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威;賈依嬌 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 | ||
1.一種文本聚類方法,其特征在于,所述方法包括:
獲取從網絡平臺中隨機抽取出各個類目下的文本語料;
利用多模式匹配算法,提取所述各類目下的文本語料中具有文本特征的文本分詞;
將所述具有文本特征的文本分詞輸入至預先訓練的語言模型,得到文本分詞的向量表示;
利用基于密度的聚類算法,對所述文本分詞的向量表示進行聚類。
2.根據權利要求1所述的方法,其特征在于,所述利用多模式匹配算法,提取所述各類目下的文本語料中具有文本特征的文本分詞,具體包括:
利用多模式匹配算法所構建的樹形結構,遍歷匹配所述各類文本類目下的文本語料;
記錄樹形結構中與文本語料匹配相一致目標節點對應的模式串;
匯總所述目標節點對應的模式串,形成具有文本特征的文本分詞。
3.根據權利要求2所述的方法,其特征在于,所述利用多模式匹配算法所構建的樹形結構,遍歷匹配所述各類文本類目下的文本語料,具體包括:
利用多模式匹配算法,將預先維護的特征詞轉換為多模式串后,構建包含有失敗指針的樹形結構,所述樹形結構中每個節點對應有一個失敗指針;
將所述各類文本類目下的文本語料形成多個主串分別沿著樹形結構中節點指向以及節點對應失敗指針的指向與每個節點對應的模式串進行匹配。
4.根據權利要求3所述的方法,其特征在于,所述將所述各類文本類目下的文本語料形成多個主串分別沿著樹形結構中節點指向以及節點對應失敗指針的指向與每個節點對應的模式串進行匹配,具體包括:
將所述各類文本類目下的文本語料形成多個主串分別沿著樹形結構中節點指向與每個節點對應的模式串進行匹配;
若匹配相不一致,則沿著節點對應失敗指針的指向繼續與每個節點對應的模式串進行匹配。
5.根據權利要求1-4中任一項所述的方法,其特征在于,所述語言模型中所述將所述具有文本特征的文本分詞輸入至預先訓練的語言模型,得到文本分詞的向量表示,具體包括:
對所述具有文本特征的文本分詞進行離散處理,形成分詞序列;
利用所述預先訓練的語言模型中多維向量映射參數將離散處理形成的分詞序列映射至多維向量空間中,得到文本分詞的向量表示。
6.根據權利要求1-4中任一項所述的方法,其特征在于,所述利用基于密度的聚類算法,對所述文本分詞的向量表示進行聚類,具體包括:
利用基于密度的聚類算法,對所述文本分詞的向量表示進行重新組織,構建二叉查找樹;
從所述二叉查找樹的根節點開始作為中心節點,對所述二叉查找樹中每個節點進行最鄰近查找,得到所述根節點相鄰節點的鄰域閾值;
基于所述相鄰節點的鄰域閾值,對所述文本分詞的向量表示進行聚類。
7.根據權利要求6的方法,其特征在于,所述基于所述鄰域閾值,對所述文本分詞的向量表示進行聚類,具體包括:
按照所述鄰域閾值由小至大的排列順序,逐個將相鄰節點加入至所述中心節點后,計算以所述中心節點預設距離為半徑形成分布區域內的節點密度差異;
若所述分布區域內的節點密度差異大于預設閾值,則排除當前相鄰接點后對剩余節點進行聚類。
8.一種文本聚類裝置,其特征在于,所述裝置包括:
獲取單元,用于獲取從網絡平臺中隨機抽取出各個類目下的文本語料;
提取單元,用于利用多模式匹配算法,提取所述各類目下的文本語料中具有文本特征的文本分詞;
處理單元,用于將所述具有文本特征的文本分詞輸入至預先訓練的語言模型,處理為文本分詞的向量表示;
聚類單元,用于利用基于密度的聚類算法,對所述文本分詞的向量表示進行聚類。
9.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述的文本聚類方法的步驟。
10.一種計算機存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本聚類方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大箴(杭州)科技有限公司,未經大箴(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010713845.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通訊消息的發送方法及裝置
- 下一篇:一種水產品中奧美普林含量的檢測方法





