[發明專利]模型訓練方法、文本處理方法、裝置及電子設備在審
| 申請號: | 202210456716.7 | 申請日: | 2022-04-27 |
| 公開(公告)號: | CN115130542A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 陳玉博;劉康;趙軍;曹鵬飛;閉瑋 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08;G06N20/10 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 文本 處理 裝置 電子設備 | ||
本申請實施例提供了一種模型訓練方法、文本處理方法、裝置及電子設備,涉及機器學習及自然語音處理領域。該方法包括:獲取第一樣本集和第二樣本集,根據第一樣本集對初始的事理關系識別模型進行訓練,得到第一事理關系識別模型,確定第一事理關系識別模型對于每個第二樣本文本預測的不確定性程度;根據各個第二樣本文本對應的不確定性程度篩選多個第三樣本文本;基于多個目標樣本文本對第一事理關系識別模型進行迭代訓練,直至滿足訓練停止條件,得到訓練好的第二事理關系識別模型。本申請實施例緩解標注數據不足問題,并且訓練好的第二事理關系識別模型具有更高的準確性和魯棒性。
技術領域
本申請涉及機器學習及自然語音處理技術領域,具體而言,本申請涉及一種模型訓練方法、文本處理方法、裝置及電子設備。
背景技術
當今社會,互聯網上實時推送著各類信息。面對日益增長的信息,快速梳理出信息中各個事件間的邏輯關系變得至關重要。
事件的事理關系抽取是以事件為基本語義單元,實現事件邏輯關系的深層檢測和抽取,對于文本理解具有重要的作用,因網絡和社會因素影響,該技術的研究在國內外研究熱度逐年升高。
由于日常的文本的表述方式復雜,語義理解困難,因此現有技術在通過機器學習技術訓練事理關系識別模型時,需要人工對文本的事理關系進行標注,效率很低,并且還存在訓練數據不足的問題,現有的方法無法利用大量的無標注數據,很容易造成模型過擬合,進而影響模型的準確性。
發明內容
本申請實施例提供了一種模型訓練方法、文本處理方法、裝置、電子設備、計算機可讀存儲介質及計算機程序產品,可以解決現有技術的上述的問題。技術方案如下:
根據本申請實施例的一個方面,提供了一種模型訓練方法,該方法包括:
獲取第一樣本集和第二樣本集,第一樣本集包括多個標注有標簽的第一樣本文本,第二樣本集包括多個未標注標簽的第二樣本文本,第一樣本文本的標簽表征了第一樣本文本中包含的事件信息間的事理關系;
根據第一樣本集對初始的事理關系識別模型進行訓練,得到第一事理關系識別模型,確定第一事理關系識別模型對于每個第二樣本文本預測的不確定性程度;
根據各個第二樣本文本對應的不確定性程度,從各個第二樣本文本中篩選多個第三樣本文本;
將帶有標簽的各個第一樣本文本和各個第三樣本文本作為目標樣本文本,基于多個目標樣本文本對第一事理關系識別模型進行迭代訓練,直至滿足訓練停止條件,得到訓練好的第二事理關系識別模型
根據本申請實施例的另一個方面,提供了一種文本處理方法,該方法包括:
獲取待識別文本;
將待識別文本輸入訓練好的事理關系識別模型中,得到待識別文本中包含的事件信息間的事理關系;
其中,訓練好的事理關系識別模型是采用上述方法訓練得到的。
根據本申請實施例的另一個方面,提供了一種模型訓練裝置,該裝置包括:
樣本集獲取模塊,用于獲取第一樣本集和第二樣本集,第一樣本集包括多個標注有標簽的第一樣本文本,第二樣本集包括多個未標注標簽的第二樣本文本,第一樣本文本的標簽表征了第一樣本文本中包含的事件信息間的事理關系;
不確定性計算模塊,用于根據第一樣本集對初始的事理關系識別模型進行訓練,得到第一事理關系識別模型,確定第一事理關系識別模型對于每個第二樣本文本預測的不確定性程度;
樣本篩選模塊,用于根據各個第二樣本文本對應的不確定性程度,從各個第二樣本文本中篩選多個第三樣本文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210456716.7/2.html,轉載請聲明來源鉆瓜專利網。





