[發明專利]一種基于知識增強和知識遷移的句子語義相關度判斷方法在審
| 申請號: | 202011221328.8 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112417884A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 徐玲;蘇錦鈿 | 申請(專利權)人: | 廣州平云信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06F40/237;G06N5/02 |
| 代理公司: | 廣東省暢欣知識產權代理事務所(普通合伙) 44631 | 代理人: | 耿佳 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 增強 遷移 句子 語義 相關 判斷 方法 | ||
1.一種基于知識增強和知識遷移的句子語義相關度判斷方法,其特征在于:判斷方法的具體步驟為;
步驟一:對目標任務語料集中的所有句子語義相關度進行歸一化處理,使得統一為區間[0,1]中的值,具體的歸一化公式為:round((y-min)/(max-min),4),其中:round表示四舍五入并取小數點后4位,y表示具體某一個句子對的原始相關度,max和min分別表示該任務語料集中所有句子相關度的最大值和最小值;
步驟二:根據目標任務語料集中已標注的訓練數據和驗證數據,通過一定的策略構造相應的無標注訓練語料,具體來說,若已標注的數據中句子對的語義相關度在區間(0.5,1]中,則在待訓練語料中該句子對為相鄰關系,即為同一段落,同時按50%的概率對調兩個句子的先后順序;若語義相關度在區間[0,0.5],則在待訓練語料中將句子對劃分為兩個獨立的段落,并通過空白行進行相隔,同時按50%的概率對調句子的先后順序;
步驟三:在預訓練BERT模型的基礎上,利用步驟二中構造的任務相關語料及BERT中的MLM(MaskedLanguageModel)和NSP(NextSentencePrediction)訓練目標對BERT進行訓練,目的是在預訓練BERT的基礎上進一步增強任務相關的領域知識,并得到相應的TBERT模型;
步驟四:對于待判斷的兩個句子,一方面構造句子對作步驟三中TBERT的輸入,并將TBERT中最后一層的[CLS]標志所對應的詞向量作為句子對的全局上下文信息及語義關系的詞向量表示;
步驟五:使用一個孿生TBERT網絡分別單獨學習各個句子的語義表示,并將TBERT中最后一層的[CLS]標志所對應的詞向量作為各個句子的局部語義向量表示,同時通過絕對值運算和對應元素相乘運算等距離函數分別計算兩個句子的語義距離關系,從而得到包含兩個句子之間距離關系的詞向量,并與步驟四中句子對的語義詞向量表示進行合并,從而得到最終的句子語義相關度表示詞向量;
步驟六:通過一個全連接網絡層對步驟五中的句子語義相關度詞向量進行維度轉換,并最后利用sigmoid函數得到最終的句子相關度結果,同時根據均方誤差MSE(MeanSquared Error)作為損失函數對模型中的待訓練參數進行反向調整。
2.根據權利要求1所述的一種基于知識增強和知識遷移的句子語義相關度判斷方法,其特征在于:基于知識增強和知識遷移的句子語義相關度判斷方法是在一個任務相關預訓練方法及一個多層神經網絡中完成的,步驟一和步驟二在該預訓練方法中完成,步驟三在該多層網絡的第一層輸入層中完成,步驟四在第二層BERT層中完成,步驟五在第三層距離層中完成,步驟六在第四層輸出層中完成。
3.根據權利要求2所述的一種基于知識增強和知識遷移的句子語義相關度判斷方法,其特征在于:基于知識增強和知識遷移的句子語義相關度判斷方法為一個三階段的方法,即預訓練-任務相關預訓練-微調,任務相關預訓練方法通過充分利用目標任務集中已標注的訓練數據及驗證數據構造無監督的待訓練語料,并對預訓練BERT語言進行再訓練,目的是進一步增強任務相關的知識并得到包含領域知識的TBERT模型;多層網絡模型通過利用TBERT一方面學習句子對的全局上下文信息以及相關性;另一方面通過一個孿生TBERT分別學習各個句子的局部語義,并結合距離函數計算句子之間的相關性,最后合并得到最終的句子語義相關度表示。
4.根據權利要求3所述的一種基于知識增強和知識遷移的句子語義相關度判斷方法,其特征在于:步驟一中針對不同語料集中可能存在的多種不同語義相關度表示,利用歸一化公式將語義相關度表示統一轉化為區間[0,1]上的實數表示,其中0表示完全不相關,1表示完全相同,數值越大,表示相關度越強。
5.根據權利要求3所述的一種基于知識增強和知識遷移的句子語義相關度判斷方法,其特征在于:步驟二為任務相關的預訓練方法,通過利用目標任務集中已標注的訓練數據及驗證數據構造無監督的待訓練語料后,對預訓練語言模型BERT進行再訓練,從而得到了增強任務知識的預訓練語言模型TBERT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州平云信息科技有限公司,未經廣州平云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011221328.8/1.html,轉載請聲明來源鉆瓜專利網。





