[發明專利]基于多維卷積特征的短文本相似度計算方法有效
| 申請號: | 201811100976.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN109299462B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 高曙;龔磊;袁蕾;程剛 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 武漢開元知識產權代理有限公司 42104 | 代理人: | 潘杰;劉琳 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多維 卷積 特征 文本 相似 計算方法 | ||
本發明公開了一種基于多維卷積特征的短文本相似度計算方法,包括:利用訓練數據構建多粒度卷積神經網絡模型;在多粒度卷積神經網絡模型的輸入層輸入兩個訓練樣本,獲得各自的詞向量矩陣;在卷積層進行多粒度卷積操作,提取各自的特征向量;在池化層使用K?Block?Max池化和平均池化方法完成二次特征向量提??;在相似度計算層使用融合方向與距離的計算方法得到兩個訓練樣本的相似度向量;在全連接層計算兩個訓練樣本的相似度值,并與訓練數據中標注的相似度值進行比較,對模型進行更新;將需要計算相似度的兩段短文本,輸入到經過訓練的多粒度卷積神經網絡模型中,則在全連接層輸出相似度值。本發明采用不同粒度卷積核對短文本數據進行特征提取,提高準確性。
技術領域
本發明涉及計算機技術領域,具體地指一種基于多維卷積特征的短文本相似度計算方法。
背景技術
基于詞頻的特征提取是指在最初的詞項集合中,根據給定的特征評估函數計算,從而挑選最能反映短文本特征的特征詞項集合的過程。詞頻-逆向文檔頻率(TF-IDF)和互信息(MI)是比較常用的兩種詞頻特征提取方法。來源于統計熱力學的信息熵(IE)的概念,用于度量體系的混亂程度,它本身并不直接用于文本的特征提取,但是經常融入到其它短文本詞頻特征提取方法中。
主題模型是一種比較常用的短文本語義特征提取模型。首先,為了解決數據稀疏問題,主題模型結合一元混合模型的優點:所有短文本共享一個主題分布;其次,為了消除每個短文本只有一個主題的弊端,在整個語料庫上的共現詞對上建模;最后,將短文本映射到相應的語義空間(或主題空間),從而對短文本語義進行分析和判斷。
隨著深度學習的發展,短文本處理過程逐步轉向提取文本間的語義特征。卷積神經網絡結構中卷積-池化結構可以用于完成短文本的特征提取。卷積核是一個作用于輸入矩陣的滑動窗口函數,在卷積操作中,卷積核按照一定的運動方式掃過輸入矩陣完成卷積運算。池化操作一般位于卷積運算后,作用是對卷積層提取到的特征向量進行降采樣,完成特征的二次提取。常用的池化方式為最大池化,該池化方式僅取池化窗口范圍內的最大特征值,其余特征值全部拋棄。卷積-池化結構的共同作用完成短文本輸入數據的特征提取。
短文本相似度計算是自然語言處理(NLP)乃至機器學習領域的難點和熱點,它是NLP中一個重要任務,既可以當成一個單獨的任務,又可以作為其它NLP應用的基礎。傳統的處理方法如基于詞頻模型的方法無法挖掘出短文本中的隱含信息,基于主題模型的處理方法不能準確建模文本匹配中的語義相近程度。在基于卷積神經網絡的處理方法中,由于模型的輸入是短文本轉化后的文本矩陣,其輸入矩陣的行與列由輸入的短文本長度以及詞向量的維度決定,傳統的卷積核確定方式不僅會破壞詞向量的信息,而且無法提取每個詞語上下文的信息;另外,在池化層中最大池化操作僅保留一個特征最強的值,從而忽略其余出現的重要特征,對特征相似度計算造成不利影響;且傳統的卷積-池化特征提取是從單一粒度進行,提取到的特征向量不足以代表短文本的語義,因此,在相似度計算過程中,會丟失短文本的部分語義特征,導致相似度計算的準確性受到影響。
發明內容
本發明的目的是為了解決上述背景技術存在的不足,而提出的一種基于多維卷積特征的短文本相似度計算方法,該方法構建了一種多粒度卷積神經網絡模型結構,模型的訓練過程采用不同粒度卷積核對短文本數據進行特征提取,并利用K-Block-Max池化(K-Block-Max Pooling)和平均池化(Mean Pooling)兩種方式進行池化操作,從而有效的解決目前存在的問題。
為實現上述目的,本發明所設計的基于多維卷積特征的短文本相似度計算方法,其特殊之處在于,所述方法包括訓練步驟和計算步驟,所述訓練步驟包括:
1)使用業內開放的標準短文本數據集作為訓練數據;
2)利用訓練數據,構建多粒度卷積神經網絡模型,所述多粒度卷積神經網絡模型包括輸入層、卷積層、池化層、相似度計算層和全連接層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811100976.0/2.html,轉載請聲明來源鉆瓜專利網。





