[發明專利]訓練文本判別模型的方法及系統在審
| 申請號: | 202011347328.2 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112328750A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 蔡曉華 | 申請(專利權)人: | 上海天旦網絡科技發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06N3/08 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 200086 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 文本 判別 模型 方法 系統 | ||
本發明提供了一種訓練文本判別模型的方法及系統,包括:從真實語言庫中抽取真實語言樣本輸入生成模型;生成模型對抽取的真實語言樣本插入、刪除或替換修飾詞得到第一新語言樣本;生成模型對抽取的真實語言樣本在主干詞中引入混淆詞得到第二新語言樣本;將第一新語言樣本或第二新語言樣本輸入判別模型,判別模型將輸入的第一新語言樣本或第二新語言樣本與真實語言樣本進行比較,判斷是正樣本還是負樣本;比較判別模型的判斷結果與生成模型的期望,根據比較結果更新判別模型的模型參數;生成模型根據判別模型更新后的模型參數更新生成模型的模型參數。通過生成的正樣本的質量,以及通過引入混淆詞的方式生成負樣本的質量較以往學習方式可控。
技術領域
本發明涉及數據處理領域,具體地,涉及一種訓練文本判別模型的方法及系統。
背景技術
對抗學習目前主要用于圖像識別領域,通過判別模型來判別生成模型生成的圖像,從而不斷提高生成模型的圖像生成能力。
正如專利文獻CN109949317A公開了一種基于逐步對抗學習的半監督圖像實例分割方法,對實例分割模型進行再訓練,能夠獲得較高精確度的分割模型?,F有的對抗學習主要聚焦于生成模型經過訓練得到的性能提升,忽略了判別模型對抗學習中的性能提升。通過對抗學習,使得判別模型的魯棒性提升的方式,在目前公開文獻中不多。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種訓練文本判別模型的方法及系統。
根據本發明提供的一種訓練文本判別模型的方法,包括:
樣本抽取步驟:從真實語言庫中抽取真實語言樣本輸入生成模型;
樣本生成步驟:生成模型對抽取的真實語言樣本插入、刪除或替換修飾詞得到第一新語言樣本;生成模型對抽取的真實語言樣本在主干詞中引入混淆詞得到第二新語言樣本;
判別步驟:將第一新語言樣本或第二新語言樣本輸入判別模型,判別模型將輸入的第一新語言樣本或第二新語言樣本與真實語言樣本進行比較,判斷第一新語言樣本或第二新語言是正樣本還是負樣本;
判別模型更新步驟:比較判別模型的判斷結果與生成模型的期望,根據比較結果更新判別模型的模型參數;
生成模型更新步驟:生成模型根據判別模型更新后的模型參數更新生成模型的模型參數。
優選地,所述樣本生成步驟包括:
對于插入修飾詞,所述生成模型根據抽取的真實語言樣本判斷可插入位置,在判斷得到的可插入位置插入修飾詞;
對于刪除修飾詞,所述生成模型根據抽取的真實語言樣本判斷修飾詞位置,刪除判斷得到的修飾詞位置的修飾詞;
對于替換修飾詞,所述生成模型根據抽取的真實語言樣本判斷修飾詞位置,用新的修飾詞替換判斷得到的修飾詞位置的修飾詞;
其中,插入、刪除或替換修飾詞不改變抽取的真實語言樣本本身屬于正樣本或負樣本的分類。
優選地,所述樣本生成步驟包括:
對于引入混淆詞,所述生成模型根據抽取的真實語言樣本判斷主干詞的位置和類別,用混淆詞插入或替換所述主干詞,從而改變抽取的真實語言樣本本身屬于正樣本或負樣本的分類。
優選地,所述判別步驟中比較的方式包括:將第一新語言樣本或第二新語言樣本進行向量化和KL散度計算,若計算結果的分布差異小于預設值,則判別模型判斷第一新語言樣本或第二新語言樣本為正樣本,反之判別模型判斷為負樣本。
優選地,所述判別模型更新步驟包括:
在判別模型的判斷結果與生成模型的期望一致時,判別模型通過反向傳遞函數更新模型參數,使判別模型給出正確的判別的概率更高;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天旦網絡科技發展有限公司,未經上海天旦網絡科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011347328.2/2.html,轉載請聲明來源鉆瓜專利網。





