[發明專利]一種獲得目標訓練樣本的方法、電子設備及介質在審
| 申請號: | 202210586079.5 | 申請日: | 2022-05-26 |
| 公開(公告)號: | CN114861625A | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 韓佳;杜新凱;呂超;谷姍姍;張晗;史輝;李文灝;孫垚鋒 | 申請(專利權)人: | 陽光保險集團股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 鐘揚飛 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 獲得 目標 訓練 樣本 方法 電子設備 介質 | ||
本申請實施例提供一種獲得目標訓練樣本的方法、電子設備及介質,該方法包括:獲取多個原始句子集合,其中,所述多個原始句子集合中的各原始句子集合包括一條原始語句、第一語句集合和第二語句集合,所述第一語句集合與所述原始語句的相似度大于閾值,所述第二語句集合與所述原始語句的相似度小于閾值;計算所述各原始句子集合中兩兩語句之間的差異值,其中,所述差異值用于表征兩個語句之間的差異程度;基于所述差異值確定是否刪除所述多個原始句子集合中的至少部分集合,獲得目標訓練樣本。通過本申請的一些實施例能夠從多個原始句子集合中選取得到對于模型訓練更有價值的目標訓練樣本。
技術領域
本申請實施例涉及樣本數據選取領域,具體涉及一種獲取目標訓練樣本的方法、電子設備及介質。
背景技術
在語義識別領域,無論是分類任務還是排序任務都需要借助樣本數據(或稱為訓練數據)來完成對神經網絡模型的訓練。
現有技術的樣本數據一般分為正樣本和負樣本,其中,選擇不適宜的負樣本(如較為簡單的負樣本)對模型進行訓練,導致該模型不能夠準確的區分樣本數據。例如,通常會使用負樣本來生成困難負樣本,并且使用困難負樣本對神經網絡模型進行訓練。然而由于現有技術生成的困難負樣本并不符合常規的用語習慣因此導致得到采用這些困難負樣本數據對神經網絡模型進行訓練后得到的神經網絡模型的精度不高。
因此,如何獲得通過提升樣本數據的質量來提升訓練得到的神經網絡模型的任務執行結果準確率成為需要解決的問題。
發明內容
本申請實施例提供一種獲取目標訓練樣本的方法、電子設備及介質,通過本申請的一些實施例通過計算兩兩語句之間的差異值,能夠從多個原始句子集合中選取得到對于模型訓練更有價值的目標訓練樣本。
第一方面,本申請提供了一種獲得目標訓練樣本的方法,所述方法包括:獲取多個原始句子集合,其中,所述多個原始句子集合中的各原始句子集合包括一條原始語句、第一語句集合和第二語句集合,所述第一語句集合與所述原始語句的相似度大于閾值,所述第二語句集合與所述原始語句的相似度小于閾值;計算所述各原始句子集合中兩兩語句之間的差異值,其中,所述差異值用于表征所述兩兩語句之間的差異程度,所述兩兩語句中的一條語句為所述原始語句且另一條語句為所述第一語句集合中的任一語句,所述兩兩語句中的一條語句為所述原始語句且另一條語句為所述第二語句集合中的任一語句,或者所述兩兩語句中的一條語句為第一語句集合中任一語句且另一條語句為所述第二語句集合中任一語句;基于所述差異值確定是否刪除所述多個原始句子集合中的至少部分集合,獲得目標訓練樣本。
因此,與相關技術中直接生成困難負樣本的方法不同的是,本申請實施例通過計算語句之間的差異程度,從多個原始句子集合中篩選目標訓練樣本集合,能夠得到對于模型訓練更有價值的訓練數據,從而能夠提升模型的語義識別能力。
結合第一方面,在本申請的一種實施方式中,所述計算所述各原始句子集合中兩兩語句之間的差異值,包括:計算所述原始語句和所述第二語句集合中各語句之間的第一編輯距離,獲得多個第一差異值,其中,所述第一編輯距離是通過將所述第二語句集合中各語句改寫為所述原始語句的改寫次數確定的;計算所述第一語句集合中各語句與所述第二語句集合中各語句之間的第二編輯距離,獲得多個第二差異值,其中,所述第二編輯距離是通過將所述第二語句集合中各語句改寫為所述第一語句集合中各語句的改寫次數確定的。
因此,本申請實施例通過計算原始語句與第二語句集合以及第一語句集合和第二語句集合之間的編輯距離,能夠量化它們之間的差異,從而根據這樣的差異篩選出對模型有價值的目標訓練數據。
結合第一方面,在本申請的一種實施方式中,所述第一語句集合包括第i語句,所述第二語句集合包括第j語句,i和j為大于或等于1的整數;所述基于所述差異值確定是否刪除所述多個原始句子集合中的至少部分集合,獲得目標訓練樣本,包括:選擇所述第i語句對應的第一差異值與所述第j語句對應的第二差異值之間的較小值;基于所述較小值確定是否刪除所述多個原始句子集合中的至少部分集合,獲得目標訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陽光保險集團股份有限公司,未經陽光保險集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210586079.5/2.html,轉載請聲明來源鉆瓜專利網。





