[發明專利]一種基于深度學習的短文本聚類方法在審
| 申請號: | 201611260575.2 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106649853A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 楊華興;苗欣;董美亞 | 申請(專利權)人: | 儒安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 胡彬,孟金喆 |
| 地址: | 214000 江蘇省無錫市新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文本 方法 | ||
1.一種基于深度學習的短文本聚類方法,其特征在于,包括如下步驟:
S101、通過卷積神經網絡計算得到短文本之間的語義相似度;
S102、將所述語義相似度應用到聚類算法中,對短文本進行聚類操作。
2.根據權利要求1所述的基于深度學習的短文本聚類方法,其特征在于,所述步驟S101包括:
S1011、選取訓練短文本,短文本的形式是“文本A 文本B 相似度”;
S1012、從短文本A與短文本B中各抽取連續的K個單詞,并將兩者按照原有的順序組成新的短文本段;獲取所述新的短文本段中每一個詞的詞向量表示并組成映射矩陣;利用所述映射矩陣與相同大小的卷積核進行卷積,獲得一個標量;
S1013、重復執行步驟S1012,完成所有的文本組合以及一維卷積操作;將得到的所有標量按照原有的順序組合起來,形成能夠表達文本A與文本B語義信息的局部特征矩陣;
S1014、對所述局部特征矩陣進行二維池化操作,得到全局特征矩陣;
S1015、對所述全局特征矩陣交替進行二維卷積操作和二維池化操作,并把最終的全局特征矩陣通過一個全連接層變換成一個特征向量;把特征向量輸入到一個多層感知機中,并通過多層感知機的處理輸出兩個文本的語義相似度;
S1016、將通過所述步驟S1011-S1015訓練好的用來計算兩個短文本語義相似度的卷積神經網絡模型存儲到磁盤。
3.根據權利要求2所述的基于深度學習的短文本聚類方法,其特征在于,所述步驟S102包括
S1021、執行聚類算法,選取好聚類中心;將所要進行聚類操作的短文本集合中的每一個短文本與選取好的聚類中心進行兩兩組合得到文本對;從所述磁盤中載入訓練好的卷積神經網絡模型;將組合得到的所述文本對輸入卷積神經網絡模型中,得到文本對中兩個短文本的語義相似度;
S1022、根據獲得的短文本與每個聚類中心的相似度,將短文本分到相似度最高的聚類簇中;
S1023、更新聚類中心,繼續執行步驟S1021-S1022對短文本進行聚類,得到聚類結果。
4.根據權利要求3所述的基于深度學習的短文本聚類方法,其特征在于,所述步驟S102中聚類算法選用K均值聚類算法。
5.根據權利要求4所述的基于深度學習的短文本聚類方法,其特征在于,所述步驟S1012中從短文本A與短文本B中各抽取連續的K個單詞時,對于短的文本采取填充的方式使得兩個文本的長度一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于儒安科技有限公司,未經儒安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260575.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:PCB文件轉Gerber文件的方法及系統
- 下一篇:可視化數據認知系統





