[發明專利]基于對比學習的語義識別模型訓練方法、設備和介質在審
| 申請號: | 202210439125.9 | 申請日: | 2022-04-25 |
| 公開(公告)號: | CN114722834A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 黃海龍 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/253;G06F40/247;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 譚曉欣 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對比 學習 語義 識別 模型 訓練 方法 設備 介質 | ||
本申請涉及深度學習技術領域,提出了一種基于對比學習的語義識別模型訓練方法、設備和介質,方法包括:在所述原始句子文本中對每一個所述第一目標詞匯進行同義詞替換,得到第一處理句子文本;以及,在所述原始句子文本中對每一個所述第二目標詞匯進行反義詞替換,得到第二處理句子文本;通過所述原始句子文本、所述第一處理句子文本和所述第二處理句子文本對初始的語義識別模型進行訓練,以得到目標語義識別模型。本發明實施例目的是提供能夠識別語義微小變化的對比學習方法,針對之前正負樣本比較好區分的問題進行了改造,使得模型能夠學習到更豐富的知識,提升模型訓練效果。
技術領域
本申請涉及人工智能技術領域,特別是涉及一種基于對比學習的語義識別模型訓練方法、系統、電子設備和計算機可讀存儲介質。
背景技術
對比學習(Contrastive Learning)是一種常用的自監督學習方法,核心思想是縮小與正樣本的距離,擴大與負樣本的距離,通過訓練模型哪些數據點相似或不同,來學習沒有標簽的數據集的一般特征。
然而,當將對比學習應用到語義識別模型,以訓練語義識別模型來區分語義相似或者不同的文本句子時,遇到的困難較多,主要困難在于:一是文本對比學習的負樣本對比較容易識別,不同文本表示的語義差別本身較大,僅通過文本長度即可區分出負樣本對;其次是通過數據增強構造正樣本對過程中可能出現假正例,因為往往改變文本的一個或多個詞可能語義就發生了變化?;谝陨?,通過對比學習訓練句子級的語義識別模型的效果并不好。
發明內容
本申請實施例的主要目的在于提出一種基于對比學習的語義識別模型訓練方法、系統、電子設備和計算機可讀存儲介質,旨在提升通過對比學習訓練句子級的語義識別模型的效果。
為實現上述目的,本申請實施例的第一方面提出了一種基于對比學習的語義識別模型訓練方法,所述方法包括:
獲取待處理的原始句子文本;
根據所述原始句子文本中各個詞匯的詞性,在所述原始句子文本中確定N個候選詞匯;
從所述N個候選詞匯中選取M個詞匯作為第一目標詞匯以及選取T個詞匯作為第二目標詞匯,其中,N、M和T滿足以下數值關系式:1<T<M<N;
在所述原始句子文本中,對每一個所述第一目標詞匯進行同義詞替換,得到第一處理句子文本;
在所述原始句子文本中,對每一個所述第二目標詞匯進行反義詞替換,得到第二處理句子文本;
通過所述原始句子文本、所述第一處理句子文本和所述第二處理句子文本對初始的語義識別模型進行訓練,以得到目標語義識別模型。
根據本申請一些實施例提供的基于對比學習的語義識別模型訓練方法,所述通過所述原始句子文本、所述第一處理句子文本和所述第二處理句子文本對初始的語義識別模型進行訓練,以得到目標語義識別模型,包括:
將所述原始句子文本、所述第一處理句子文本和所述第二處理句子文本分別輸入到初始的語義識別模型,得到對應于所述原始句子文本的原始語義向量、對應于所述第一處理句子文本的第一處理語義向量和對應于所述第二處理句子文本的第二處理語義向量;
基于所述原始語義向量和所述第一處理語義向量計算第一損失值;
基于所述原始語義向量和所述第二處理語義向量計算第二損失值;
基于所述第一損失值和所述第二損失值確定是否滿足預設的訓練結束條件;
在不滿足訓練結束條件時,調整所述語義識別模型的模型參數,并通過所述原始句子文本、所述第一處理句子文本和所述第二處理句子文本繼續對調整后的語義識別模型進行訓練;
在滿足訓練結束條件時,將當前的語義識別模型作為目標語義識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210439125.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:醫療影像中心管理系統
- 下一篇:鋁合金自動弧焊方法及裝置





