[發明專利]對抗樣本生成方法、裝置、電子設備和計算機可讀介質在審
| 申請號: | 201910684104.1 | 申請日: | 2019-07-26 |
| 公開(公告)號: | CN110378474A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 苗寧;周浩;李磊 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選文本 結果信息 文本處理 訓練樣本 樣本文本 計算機可讀介質 對抗 電子設備 樣本生成 樣本 標注信息 處理模型 生成步驟 輸入文本 預設條件 期望 | ||
1.一種對抗樣本生成方法,包括:
對于訓練樣本集中的訓練樣本,執行以下生成步驟,其中,訓練樣本包括樣本文本和該樣本文本對應的標注信息:
生成該樣本文本對應的候選文本;
將該候選文本輸入文本處理模型,得到文本處理結果信息;
若該候選文本對應的文本處理結果信息滿足預設條件,將該候選文本以及該候選文本對應的文本處理結果信息確定為對抗樣本。
2.根據權利要求1所述的方法,其中,所述生成該樣本文本對應的候選文本,包括:
基于馬爾科夫鏈蒙特卡羅MCMC采樣方法以及語言模型LM生成該樣本文本對應的候選文本。
3.根據權利要求1所述的方法,其中,所述方法還包括:
若該候選文本對應的文本處理結果信息不滿足預設條件,將該樣本文本對應的候選文本作為樣本文本,繼續執行所述生成步驟。
4.根據權利要求1所述的方法,其中,所述方法還包括:
將生成的對抗樣本與所述訓練樣本集的合集確定為新的訓練樣本集;
基于所述新的訓練樣本集對所述文本處理模型進行訓練。
5.根據權利要求2所述的方法,其中,所述基于馬爾科夫鏈蒙特卡羅MCMC采樣方法以及語言模型LM生成該樣本文本對應的候選文本,包括:
對該樣本文本進行刪詞,或
從目標詞庫中選取至少一個詞加入該樣本文本;或
從目標詞庫中選取詞替換該樣本文本中的詞,得到該樣本文本對應的候選文本。
6.根據權利要求5所述的方法,其中,所述目標詞庫通過以下步驟得到:
對于該樣本文本中的詞,基于所述LM對初始詞庫進行篩選,得到所述目標詞庫。
7.一種對抗樣本生成裝置,包括:
執行單元,被配置成對于訓練樣本集中的訓練樣本,利用所包括的子單元進行對抗樣本的生成,其中,訓練樣本包括樣本文本和該樣本文本對應的標注信息,所述執行單元包括以下子單元:
生成子單元,被配置成生成該樣本文本對應的候選文本;
文本處理結果信息生成子單元,被配置成將該候選文本輸入文本處理模型,得到文本處理結果信息;
第一確定子單元,被配置成若該候選文本對應的文本處理結果信息滿足預設條件,將該候選文本以及該候選文本對應的文本處理結果信息確定為對抗樣本。
8.根據權利要求7所述的裝置,其中,所述生成子單元進一步被配置成:
基于馬爾科夫鏈蒙特卡羅MCMC采樣方法以及語言模型LM生成該樣本文本對應的候選文本。
9.根據權利要求7所述的裝置,其中,所述執行單元進一步被配置成:
若該候選文本對應的文本處理結果信息不滿足預設條件,將該樣本文本對應的候選文本作為樣本文本,繼續執行所述生成步驟。
10.根據權利要求7所述的裝置,其中,所述裝置還包括:
第二確定單元,被配置成將生成的對抗樣本與所述訓練樣本集的合集確定為新的訓練樣本集;
訓練單元,被配置成基于所述新的訓練樣本集對所述文本處理模型進行訓練。
11.根據權利要求8所述的裝置,其中,所述生成子單元進一步被配置成:
對該樣本文本進行刪詞,或
從目標詞庫中選取至少一個詞加入該樣本文本;或
從目標詞庫中選取詞替換該樣本文本中的詞,得到該樣本文本對應的候選文本。
12.根據權利要求11所述的裝置,其中,所述目標詞庫通過以下步驟得到:
對于該樣本文本中的詞,基于所述LM對初始詞庫進行篩選,得到所述目標詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910684104.1/1.html,轉載請聲明來源鉆瓜專利網。





