[發明專利]基于詞性編碼的短文本聚類方法、裝置及計算機設備有效
| 申請號: | 202010190439.0 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111506726B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 胡漢一;劉歡;夏魯豫;陳夢霏 | 申請(專利權)人: | 大箴(杭州)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/242 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威;賈依嬌 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞性 編碼 文本 方法 裝置 計算機 設備 | ||
1.一種基于詞性編碼的短文本聚類方法,其特征在于,包括:
對預處理后的目標短文本進行切詞,獲取得到各個關鍵詞;
確定各個所述關鍵詞對應的目標詞性;
依據所述目標詞性以及各個所述關鍵詞在所述目標短文本中的排列順序,計算所述目標短文本的編碼表達向量;
根據所述編碼表達向量對各個所述目標短文本進行聚類劃分;
所述依據所述目標詞性以及各個所述關鍵詞在所述目標短文本中的排列順序,計算所述目標短文本的編碼表達向量,具體包括:
將所述目標詞性以及所述關鍵詞在文本中的排列順序確定為聚類編碼特征;
基于所述聚類編碼特征并利用定長遺忘編碼方法計算各個目標短文本的編碼表達向量。
2.根據權利要求1所述的方法,其特征在于,在所述對預處理后的目標短文本進行切詞,獲取得到各個關鍵詞之前,具體還包括:
對目標短文本進行預處理;
所述對目標短文本進行預處理,具體包括:
濾除目標短文本中的特殊字符;
將所述目標短文本中的大寫英文字母替換為小寫字母;
對符合預設條件的字符組合進行加密處理或替換為預設字符。
3.根據權利要求2所述的方法,其特征在于,所述對預處理后的目標短文本進行切詞,獲取得到各個關鍵詞,具體包括:
依據關鍵詞詞典對所述目標短文本進行正則匹配,將匹配到的詞切分為第一關鍵詞;
將剩余未匹配到的詞確定為第二關鍵詞,并將所述第二關鍵詞作為新詞更新至所述關鍵詞詞典中。
4.根據權利要求2所述的方法,其特征在于,所述對預處理后的目標短文本進行切詞,獲取得到各個關鍵詞,具體還包括:
依據樣本數據中的短文本集合提取各個關鍵詞的隱藏狀態序列;
獲取所述目標短文本的觀察狀態序列;
根據所述觀察狀態序列對應各個隱藏狀態序列的最大概率,確定切詞結果,以便切分獲取得到各個關鍵詞。
5.根據權利要求3或4任一項所述的方法,其特征在于,所述確定各個所述關鍵詞對應的目標詞性,具體包括:
在關鍵詞詞性表中確定各個關鍵詞對應的關鍵詞詞性;或
將各個關鍵詞輸入至訓練好的詞性標注模型中,獲取得到各個關鍵詞的詞性標注結果。
6.根據權利要求1所述的方法,其特征在于,所述根據所述編碼表達向量對各個所述目標短文本進行聚類劃分,具體包括:
訓練搭建符合預設標準的短文本聚類模型;
將各個所述目標短文本對應的編碼表達向量輸入所述短文本聚類模型中,獲取得到所述目標短文本兩兩之間的目標距離;
依據預設距離判定規則對所述目標距離進行類別劃分,以便獲取得到所述目標短文本的聚類劃分結果。
7.一種基于詞性編碼的短文本聚類裝置,其特征在于,包括:
獲取模塊,用于對預處理后的目標短文本進行切詞,獲取得到各個關鍵詞;
確定模塊,用于確定各個所述關鍵詞對應的目標詞性;
計算模塊,用于依據所述目標詞性以及各個所述關鍵詞在所述目標短文本中的排列順序,計算所述目標短文本的編碼表達向量;
劃分模塊,用于根據所述編碼表達向量對各個所述目標短文本進行聚類劃分;
所述計算模塊,具體用于將所述目標詞性以及所述關鍵詞在文本中的排列順序確定為聚類編碼特征,并基于所述聚類編碼特征并利用定長遺忘編碼方法計算各個目標短文本的編碼表達向量。
8.一種非易失性可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現權利要求1至6中任一項所述的基于詞性編碼的短文本聚類方法。
9.一種計算機設備,包括非易失性可讀存儲介質、處理器及存儲在非易失性可讀存儲介質上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至6中任一項所述的基于詞性編碼的短文本聚類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大箴(杭州)科技有限公司,未經大箴(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010190439.0/1.html,轉載請聲明來源鉆瓜專利網。





