[發明專利]一種語義向量提取模型的訓練方法、裝置及電子設備有效
| 申請號: | 202011534559.4 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112528677B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 楊茵淇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 韓?;?/td> |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 向量 提取 模型 訓練 方法 裝置 電子設備 | ||
1.一種語義向量提取模型的訓練方法,包括:
獲取預訓練文本,基于所述預訓練文本,對語義表達提取網絡進行訓練,以生成預語義表達提取網絡;
獲取敏感文本樣本,并將所述敏感文本樣本輸入所述預語義表達提取網絡中進行識別,獲取所述敏感文本樣本的語義向量;
將所述語義向量輸入語義匹配網絡進行訓練,并基于每次訓練的損失值,調整所述預語義表達提取網絡和所述語義匹配網絡,以生成語義向量提取模型,其中,所述語義向量提取模型包括訓練結束時生成的目標語義表達提取網絡和目標語義匹配網絡;
所述將所述敏感文本樣本輸入預語義表達提取網絡中進行識別,還包括:
對所述敏感文本樣本進行組合處理,生成滿足數據匹配任務要求的樣本組,將每個所述樣本組輸入到所述預語義表達提取網絡中進行識別;
所述對所述敏感文本樣本進行組合處理,生成滿足數據匹配任務要求的樣本組,包括:
以任意兩個所述敏感文本樣本形成一個組合;
獲取所述任意兩個所述敏感文本樣本所標記的類型;
基于所述任意兩個所述敏感文本樣本所標記的類型,確定所述組合的標簽,以所述組合和所述組合的標簽,生成一個所述樣本組。
2.根據權利要求1所述的語義向量提取模型的訓練方法,其中,所述基于所述預訓練文本,對語義表達提取網絡進行訓練,以生成預語義表達提取網絡,包括:
獲取多個預訓練任務;
基于所述預訓練任務,對所述預訓練文本進行預處理,以獲取所述預訓練任務對應的預訓練樣本;
根據每個所述預訓練任務對應的預訓練樣本,對所述語義表達提取網絡進行訓練,以生成所述預語義表達提取網絡。
3.根據權利要求1所述的語義向量提取模型的訓練方法,其中,所述基于所述任意兩個所述敏感文本樣本所標記的類型,確定所述組合的標簽,包括:
響應于所述任意兩個所述敏感文本樣本所標記的類型相同,則確定所述組合的標簽為同類標簽;
響應于所述任意兩個所述敏感文本樣本所標記的類型不同,則確定所述組合的標簽為非同類標簽。
4.根據權利要求1所述的語義向量提取模型的訓練方法,其中,所述對所述敏感文本樣本進行組合處理,生成滿足數據匹配任務要求的樣本組,包括:
獲取兩個第一敏感文本樣本和一個第二敏感文本樣本,其中,所述兩個第一敏感文本樣本所標記的類型相同,且與所述第二敏感文本樣本所標記的類型不同;
以所述兩個第一敏感文本樣本和一個第二敏感文本樣本生成一個所述樣本組。
5.根據權利要求1所述的語義向量提取模型的訓練方法,其中,還包括:
在所述語義匹配網絡的訓練過程中,獲取所述組合中所述任意兩個所述敏感文本樣本的語義向量之間的第一相似度,基于所述第一相似度,獲取所述損失值。
6.根據權利要求4所述的語義向量提取模型的訓練方法,其中,還包括:
在所述語義匹配網絡的訓練過程中,獲取兩個所述第一敏感文本樣本的語義向量之間的第二相似度;
分別獲取每個所述第一敏感文本樣本的語義向量與所述第二敏感文本樣本的語義向量之間的第三相似度;
基于所述第二相似度和所述第三相似度,獲取所述損失值。
7.一種敏感文本識別方法,適用于如權利要求1-6任一項所述的語義向量提取模型的訓練方法所訓練出的語義向量提取模型,所述方法包括:
獲取待識別文本;
將所述待識別文本輸入所述語義向量提取模型中進行識別,以獲取所述待識別文本的第一語義向量;
基于所述第一語義向量和所述語義向量提取模型的敏感文本樣本的第二語義向量,確定所述待識別文本的類型標簽,其中,所述類型標簽為敏感標簽或者非敏感標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011534559.4/1.html,轉載請聲明來源鉆瓜專利網。





