[發明專利]一種基于語義和淺層特征的短文本匹配方法有效
| 申請號: | 202110373418.7 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN112966073B | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 楊潔;余衛宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06N3/04 |
| 代理公司: | 北京睿智保誠專利代理事務所(普通合伙) 11732 | 代理人: | 韓迎之 |
| 地址: | 510630 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 特征 文本 匹配 方法 | ||
本發明公開了一種基于語義和淺層特征的短文本匹配方法,涉及文本匹配技術領域。本發明包括以下步驟:讀取、預處理第一文本和第二文本,獲取字信息;利用word2vec模型將所述字信息映射為字特征向量;提取句編碼的特征,對所述特征進行歸一化處理,獲得統計特征向量;將所述字特征向量和所述統計特征向量分別輸入到交互特征學習器和統計特征學習器,分別得到解碼向量us和rs;將所述交互特征學習器的輸出和所述統計特征學習器的輸出進行拼接,將拼接結果輸入到MLP層進行預測,若輸出結果為1,則所述第一文本和第二文本匹配成功。本發明利用多層感知器進一步提煉表示向量信息,可獲得優秀文本匹配表現。
技術領域
本發明涉及文本匹配技術領域,更具體的說是涉及一種基于語義和淺層特征的短文本匹配方法。
背景技術
對于檢索任務中,檢索出高語義相關的內容至關重要。而短文本匹配方法通過對短文本內容進行匹配,從而實現相似性判斷,在各個檢索任務中,具有重要的應用價值。在短文本的匹配旨在對兩條短文本進行匹配。傳統的短文本匹配模型,由于短文本語義稀疏,特征信息少,訓練語料少,限制了傳統的短文本匹配方法的工業應用。同時,由于兩條短文本存在長度差異大,和同義詞,別名等無法對齊的情況,進一步限制了短文本匹配的準確性。獲取更加豐富的語義特征表示和減少長度差異大的文本對匹配產生的負面影響,解決同義詞、別名、簡稱等對齊問題,是重要的技術點。
發明內容
有鑒于此,本發明設計了特征提取器、交互特征學習器、統計特征學習器,其中特征提取器、交互特征學習器、統計特征學習器,模塊分別對短文本和統計特征進行深度編碼、基于深度編碼后產生的特征表示進行學習,并獲得對應的短文本深度表示向量,進而拼接對應表示向量,最后利用多層感知器進一步提煉表示向量信息,可獲得優秀表現。本發明提供了一種基于語義和淺層特征的短文本匹配方法。
為了實現上述目的,本發明采用如下技術方案:
一種基于語義和淺層特征的短文本匹配方法,包括以下步驟:
讀取、預處理第一文本和第二文本,獲取字信息;
利用word2vec模型將所述字信息映射為字特征向量;
提取句編碼的特征,對所述特征進行歸一化處理,獲得統計特征向量;
利用BiLSTM和attention得到所述字特征向量對應的解碼向量us;所述統計特征向量經多頭注意力機制結構更新所述統計特征向量得到解碼向量rs;
將所述解碼向量us和所述解碼向量rs進行拼接,對拼接結果進行預測,若輸出結果為1,則所述第一文本和所述第二文本匹配成功。
優選的,所述字信息包括字數列和詞序列。
優選的,所述句編碼的特征包括距離特征、文本特征和共現特征。
優選的,其特征在于,所述解碼向量us獲取的具體過程如下:
將所述字特征向量輸入BiLSTM層,進行獨立encoder編碼,并且在每個向量后加入特殊向量,所述特殊向量可根據實際情況自行設定,得到如下:
其中,是第一文本的所述字特征向量輸入BiLSTM層,進行獨立encoder編碼所得;是第二文本的所述字特征向量輸入BiLSTM層,進行獨立encoder編碼所得;表示第一文本對應的特殊向量;表示第二文本對應的特殊向量;表示第一文本的所述字特征向量,表示第二文本的所述字特征向量;將輸入到非線性激活網絡,得到隱藏向量矩陣hb,將輸入到非線性激活網絡,得到隱藏向量矩陣hd:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110373418.7/2.html,轉載請聲明來源鉆瓜專利網。





