[發(fā)明專利]一種基于深度學習的短文本聚類方法在審
| 申請?zhí)枺?/td> | 201611260575.2 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106649853A | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設(shè)計)人: | 楊華興;苗欣;董美亞 | 申請(專利權(quán))人: | 儒安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 胡彬,孟金喆 |
| 地址: | 214000 江蘇省無錫市新*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學習 文本 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及深度學習和文本挖掘技術(shù)領(lǐng)域,尤其涉及一種基于深度學習的短文本聚類方法。
背景技術(shù)
文本聚類是數(shù)據(jù)挖掘和自然語言處理領(lǐng)域中聚類分析算法的一大主題。隨著因特網(wǎng)的高速普及和信息技術(shù)的飛速發(fā)展,數(shù)據(jù)總量越來越龐大,數(shù)據(jù)之間的關(guān)系也變得越來越復雜;同時,又因為社交媒體的發(fā)展使得文本數(shù)據(jù)飛速增長,且通常以短文本的形式出現(xiàn):比如微博、產(chǎn)品評論以及地理位置信息等,如何準確且快速的從規(guī)模龐大的短文本數(shù)據(jù)集中抽取出有價值的信息成為了一個新的挑戰(zhàn)。
通常的做法是使用文本聚類等方法對短文本信息進行有效的組織,但傳統(tǒng)的聚類算法在文本特征表示方面的做法基本相同,都是通過短文本中每個單詞的詞頻組合成向量的方式來表示每個短文本,這種方式有著很明顯的優(yōu)點,就是模型簡單,易于構(gòu)造。但是缺點是并沒有考慮到短文本之間語義上的聯(lián)系,使得聚類的效果不理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于通過一種基于深度學習的短文本聚類方法,來解決以上背景技術(shù)部分提到的問題。
為達此目的,本發(fā)明采用以下技術(shù)方案:
一種基于深度學習的短文本聚類方法,其包括如下步驟:
S101、通過卷積神經(jīng)網(wǎng)絡(luò)計算得到短文本之間的語義相似度;
S102、將所述語義相似度應(yīng)用到聚類算法中,對短文本進行聚類操作。
特別地,所述步驟S101包括:
S1011、選取訓練短文本,短文本的形式是“文本A文本B相似度”;
S1012、從短文本A與短文本B中各抽取連續(xù)的K個單詞,并將兩者按照原有的順序組成新的短文本段;獲取所述新的短文本段中每一個詞的詞向量表示并組成映射矩陣;利用所述映射矩陣與相同大小的卷積核進行卷積,獲得一個標量;
S1013、重復執(zhí)行步驟S1012,完成所有的文本組合以及一維卷積操作;將得到的所有標量按照原有的順序組合起來,形成能夠表達文本A與文本B語義信息的局部特征矩陣;
S1014、對所述局部特征矩陣進行二維池化操作,得到全局特征矩陣;
S1015、對所述全局特征矩陣交替進行二維卷積操作和二維池化操作,并把最終的全局特征矩陣通過一個全連接層變換成一個特征向量;把特征向量輸入到一個多層感知機中,并通過多層感知機的處理輸出兩個文本的語義相似度;
S1016、將通過所述步驟S1011-S1015訓練好的用來計算兩個短文本語義相似度的卷積神經(jīng)網(wǎng)絡(luò)模型存儲到磁盤。
特別地,所述步驟S102包括
S1021、執(zhí)行聚類算法,選取好聚類中心;將所要進行聚類操作的短文本集合中的每一個短文本與選取好的聚類中心進行兩兩組合得到文本對;從所述磁盤中載入訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型;將組合得到的所述文本對輸入卷積神經(jīng)網(wǎng)絡(luò)模型中,得到文本對中兩個短文本的語義相似度;
S1022、根據(jù)獲得的短文本與每個聚類中心的相似度,將短文本分到相似度最高的聚類簇中;
S1023、更新聚類中心,繼續(xù)執(zhí)行步驟S1021-S1022對短文本進行聚類,得到聚類結(jié)果。
特別地,所述步驟S102中聚類算法選用K均值聚類算法。
特別地,所述步驟S1012中從短文本A與短文本B中各抽取連續(xù)的K個單詞時,對于短的文本采取填充的方式使得兩個文本的長度一致。
特別地,所述步驟S1012中獲取所述新的短文本段中每一個詞的詞向量表示并組成映射矩陣;利用所述映射矩陣與相同大小的卷積核進行卷積,獲得一個標量,具體包括:
對所述新的短文本段,通過查表的方式得到每個詞的詞向量表示,形成映射矩陣,滑動窗口將在兩個文本上進行滑動直至得到所有可能的組合情況;所述映射矩陣的形式如公式(1)的數(shù)學表達式所示:
其中,是對短文本x第i個單詞開始與短文本y中第j個單詞開始的連續(xù)的k個詞進行組合得到的映射矩陣,Dε表示詞向量的維度;
對于從短文本A中抽取的連續(xù)k個單詞和從短文本B中抽取的連續(xù)k個單詞組合得到的映射矩陣進行一維形式的卷積操作得到特征值,該特征值是一個單一的標量值。
特別地,所述步驟S1013中將得到的所有標量按照原有的順序組合起來,形成能夠表達文本A與文本B語義信息的局部特征矩陣,具體包括:
將得到的所有的特征值進行組合得到一個能夠表達文本A與文本B語義信息的局部特征矩陣一個局部特征矩陣,該局部特征矩陣的數(shù)學計算式如公式(2):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于儒安科技有限公司,未經(jīng)儒安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260575.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





