[發明專利]一種基于知識增強和知識遷移的句子語義相關度判斷方法在審
| 申請號: | 202011221328.8 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112417884A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 徐玲;蘇錦鈿 | 申請(專利權)人: | 廣州平云信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06F40/237;G06N5/02 |
| 代理公司: | 廣東省暢欣知識產權代理事務所(普通合伙) 44631 | 代理人: | 耿佳 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 增強 遷移 句子 語義 相關 判斷 方法 | ||
本發明公開了一種基于知識增強和知識遷移的句子語義相關度判斷方法,根據語料集中已標注的訓練數據和驗證數據構造相應的無監督訓練語料,并利用該語料對預訓練BERT進行再次訓練,從而得到包含任務相關領域知識的預訓練語言模型TBERT;一方面根據BERT的輸入要求將待判斷的兩個句子構造成句子對作為TBERT的輸入,通過多層Transformer模型的學習句子對的全局上下文信息及其關系,從而得到句子對的全局語義相關信息;另一方面通過一個孿生BERT網絡分別學習各個句子的局部語義信息,然后結合距離函數計算它們之間的語義相關度信息,從而得到包含句子局部語義及距離信息的語義向量,并最后合并得到最終的句子語義相關度表示。
技術領域
本發明涉及自然語言處理技術領域,具體為一種基于知識增強和知識遷移的句子語義相關度判斷方法。
背景技術
句子的語義相關度判斷是文本挖掘及自然語言處理領域中的一個重要子任務,在問答系統、搜索引擎、文本分類等領域中有著廣泛的應用。句子語義相似度的主要研究目標是通過機器學習的方式判斷兩個句子之間的語義相似性。早期的研究主要側重于結合傳統的機器學習方法從語法的角度研究句子之間的相關度。近年來,隨著深度學習以及各種預訓練語言模型(如BERT和XLNet等)的快速發展,學術界和工業界開始在基于大規模通用文本語料的基礎上訓練所得的預訓練語言模型基礎上,進一步結合微調的方式學習任務相關的知識,并在多個句子語義相關度語料任務上取得了新的最好效果。
近兩年來,許多相關工作證明了利用大規模無標注文本語料學習通用語言表示,并根據具體任務進行微調的方式是非常有效的,其中以BERT為主要代表?;陬A訓練語言模型+微調的兩階段模型在多個自然語言處理任務上取得了新的最好結果。由于預訓練語言模型BERT是在海量的通用無監督文本上結合MLM和NSP目標訓練所得,往往缺乏任務相關的領域知識。雖然在微調的過程中可以學習任務相關的知識,但容易因缺乏足夠的訓練語料而導致模型訓練不足,難以更好地學習任務相關的知識和提升模型的效果。另一方面,在基于BERT的句子語義相關度研究中通常將待判斷的兩個句子構造成一個句子對作為預訓練語言模型BERT的輸入,并將[CLS]標志所對應的詞向量作為最終的語義進行相關度的判斷,沒有進一步考慮句子之間的語義距離信息,為此,我們提出一種基于知識增強和知識遷移的句子語義相關度判斷方法。
發明內容
本發明的目的是針對上述現有研究的不足,提出一種基于知識增強和知識遷移的句子語義相關度判斷方法,首先,通過利用目標任務集中已標注的訓練數據及驗證數據構造無監督的待訓練語料,并對預訓練語言模型BERT進行再訓練,目的是進一步增強任務相關的知識,并得到相應的包含任務相關知識的TBERT模型;接著,一方面利用TBERT學習句子對之間的關系,另一方面利用孿生TBERT網絡學習各個句子的語義向量,并結合距離函數給出句子之間的語義關系,最后合并得到最終的句子語義相關度詞向量,將結果通過一個全連接網絡和一個sigmoid網絡進行計算及輸出。
為實現上述目的,本發明提供如下技術方案:一種基于知識增強和知識遷移的句子語義相關度判斷方法,判斷方法的具體步驟為;
步驟一:對目標任務語料集中的所有句子語義相關度進行歸一化處理,使得統一為區間[0,1]中的值,具體的歸一化公式為:round((y-min)/(max-min),4),其中:round表示四舍五入并取小數點后4位,y表示具體某一個句子對的原始相關度,max和min分別表示該任務語料集中所有句子相關度的最大值和最小值;
步驟二:根據目標任務語料集中已標注的訓練數據和驗證數據,通過一定的策略構造相應的無標注訓練語料,具體來說,若已標注的數據中句子對的語義相關度在區間(0.5,1]中,則在待訓練語料中該句子對為相鄰關系,即為同一段落,同時按50%的概率對調兩個句子的先后順序;若語義相關度在區間[0,0.5],則在待訓練語料中將句子對劃分為兩個獨立的段落,并通過空白行進行相隔,同時按50%的概率對調句子的先后順序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州平云信息科技有限公司,未經廣州平云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011221328.8/2.html,轉載請聲明來源鉆瓜專利網。





