[發明專利]一種訓練數據的處理方法、裝置、設備和介質在審
| 申請號: | 202211728613.8 | 申請日: | 2022-12-29 |
| 公開(公告)號: | CN115952419A | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 鄒偉東;黃威威;楊振東;蔡子哲 | 申請(專利權)人: | 企知道網絡技術有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24 |
| 代理公司: | 上海維卓專利代理有限公司 31409 | 代理人: | 邱奇 |
| 地址: | 518000 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 數據 處理 方法 裝置 設備 介質 | ||
1.一種訓練數據的處理方法,其特征在于,包括:
獲取多個政策訓練樣本,并從多個政策訓練樣本中,確定若干復雜樣本;
根據每一復雜樣本進行樣本擴充,得到每一復雜樣本對應的擴充樣本;
根據所有復雜樣本各自對應的擴充樣本和多個政策訓練樣本,確定最終政策訓練樣本。
2.根據權利要求1所述的訓練數據的處理方法,其特征在于,所述從多個政策訓練樣本中,確定若干復雜樣本,包括:
利用政策分類模型依次對多個政策訓練樣本進行分類,得到多個政策訓練樣本各自對應的分類結果,其中,所述政策分類模型是利用多個政策訓練樣本進行訓練得到的;
根據多個政策訓練樣本各自對應的分類結果和分類標簽,從多個政策訓練樣本中確定若干復雜樣本,其中,復雜樣本為分類結果和分類標簽不同的樣本。
3.根據權利要求1所述的訓練數據的處理方法,其特征在于,所述獲取多個政策訓練樣本之后,還包括:
提取每一政策訓練樣本的句向量,并計算每兩個句向量的相似度;
根據所有的相似度、預設相似度閾值,對多個政策訓練樣本進行篩選,得到篩選后的多個政策訓練樣本;
相應的,所述從多個政策訓練樣本中,確定若干復雜樣本,包括:
從篩選后的多個政策訓練樣本中,確定若干復雜樣本。
4.根據權利要求1所述的訓練數據的處理方法,其特征在于,所述根據所有復雜樣本各自對應的擴充樣本和多個政策訓練樣本,確定最終的政策訓練樣本,包括:
根據所述復雜樣本各自對應的擴充樣本和多個政策訓練樣本,確定所有樣本類別各自對應的占比;
確定占比小于預設占比閾值的目標樣本類別,并根據目標樣本類別對應的政策訓練樣本進行復制,得到目標樣本類別對應的復制訓練樣本;
將所有復雜樣本各自對應的擴充樣本、多個政策訓練樣本和復制訓練樣本,確定為最終的政策訓練樣本。
5.根據權利要求1至4任意一項所述的訓練數據的處理方法,其特征在于,所述根據每一復雜樣本進行樣本擴充,得到每一復雜樣本對應的擴充樣本,包括:
抽取每一復雜樣本的關鍵序列片段;
針對每一復雜樣本,確定復雜樣本的關鍵序列片段,與從詞庫中的每一序列片段的相似度值;并根據所述相似度值確定若干目標序列片段,其中,所述詞庫中存儲有多個序列片段;
根據每一復雜樣本對應的若干目標序列片段,對每一復雜樣本進行擴充,得到若干第一擴充樣本;
確定每一復雜樣本的樣本句式結構;
根據每一復雜樣本的樣本句式結構對每一復雜樣本進行語句片段剪切和/或語序調整,得到若干第二擴充樣本;
其中,每一復雜樣本對應的擴充樣本包括:若干第一擴充樣本和/或若干第二擴充樣本。
6.根據權利要求1至4任意一項所述的訓練數據的處理方法,其特征在于,所述根據所有復雜樣本各自對應的擴充樣本和多個政策訓練樣本,確定最終政策訓練樣本之后,還包括:
利用初始政策分類模型對各政策訓練樣本進行分類預測,得到政策訓練樣本屬于每個類別的預測概率;
根據每一政策訓練樣本屬于每個類別的預測概率和各自對應的類別標簽,確定訓練損失值;
根據所有政策訓練樣本的訓練損失值確定總訓練損失值;
根據所述總訓練損失值和所述政策訓練樣本對所述初始政策分類模型進行迭代訓練,直至訓練損失值小于預設損失閾值時,將訓練結束時的模型確定為政策分類模型。
7.根據權利要求6所述的訓練數據的處理方法,其特征在于,所述根據所有政策訓練樣本的訓練損失值確定總訓練損失值,包括:
利用除目標訓練樣本之外的政策訓練樣本的訓練損失值,確定總訓練損失值,其中,目標訓練樣本是最高預測概率大于預設概率閾值的樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于企知道網絡技術有限公司,未經企知道網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211728613.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





