[發明專利]數據處理與模型訓練方法、裝置、電子設備和存儲介質在審
| 申請號: | 202111493424.2 | 申請日: | 2021-12-08 |
| 公開(公告)號: | CN114138976A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 武思文;許林豐;許海洋;許韓晨璽;張巨巖;楊德將 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62;G06N20/00 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 陳曉欣;包莉莉 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
1.一種數據處理方法,包括:
對目標用戶的第一文本數據集合中的每個文本數據進行針對目標類別的二分類處理,得到所述每個文本數據的置信度;
基于所述每個文本數據的置信度,得到所述目標類別對應的置信度統計數據;
基于所述目標類別對應的置信度統計數據,得到所述目標用戶的類別特征。
2.根據權利要求1所述的方法,其中,所述對目標用戶的文本數據集合中的每個文本數據進行針對目標類別的二分類處理,得到所述每個文本數據的置信度,包括:
對目標用戶的第一文本數據集合中的每個文本數據進行分詞;
基于所述每個文本數據中的每個詞語的正樣本率,確定所述每個文本數據中的每個詞語的權重;
基于所述每個文本數據中的每個詞語的語義和權重對所述每個文本數據進行針對目標類別的二分類處理,確定所述每個文本數據屬于所述目標類別的置信度。
3.根據權利要求2所述的方法,其中,所述基于所述每個文本數據中的每個詞語的語義和權重對所述每個文本數據進行針對目標類別的二分類處理,確定所述每個文本數據屬于所述目標類別的置信度,包括:
基于所述每個文本數據中的每個詞語的語義和權重,將所述每個文本數據轉換成文本句向量;
將所述每個文本數據對應的文本句向量輸入到目標類別對應的第一分類模型中對所述每個文本數據進行針對目標類別的二分類處理,得到所述第一分類模型輸出的所述每個文本數據屬于所述目標類別的置信度。
4.根據權利要求1至3任一項所述的方法,其中,所述置信度統計數據包括:在所述第一文本數據集合中,文本數據的置信度的最大值、最小值、均值和方差值,以及置信度大于設定閾值的文本數據的數量。
5.一種模型訓練方法,包括:
對第二文本數據集合中的每個文本數據進行類別標注,得到所述每個文本數據的類別信息;
基于所述每個文本數據和所述每個文本數據的類別信息,對至少一個類別中的每個類別對應的第二分類模型分別進行訓練,得到所述每個類別對應的第一分類模型;其中,所述第一分類模型用于對文本數據進行針對所述分類模型對應的類別的二分類處理,得到所述文本數據的置信度。
6.根據權利要求5所述的方法,其中,所述對第二文本數據集合中的每個文本數據進行類別標注,得到所述每個文本數據的類別信息,包括:
對第二文本數據集合中的第一部分文本數據進行類別標注,得到所述第一部分文本數據的類別信息;
基于所述第一部分文本數據的類別信息,以及所述第一部分文本數據與所述第二文本數據集合中的第二部分文本數據之間的距離,對所述第二部分文本數據進行標注,得到所述第二部分文本數據的類別信息。
7.根據權利要求5所述的方法,其中,所述基于所述每個文本數據和所述每個文本數據的類別信息,對至少一個類別中的每個類別對應的第二分類模型分別進行訓練,包括:
將所述第二文本數據集合中的每個文本數據轉換成文本句向量;
基于所述文本句向量和所述每個文本數據的類別信息,對至少一個類別中的每個類別對應的第二分類模型分別進行訓練。
8.一種數據處理裝置,包括:
二分類模塊,用于對目標用戶的第一文本數據集合中的每個文本數據進行針對目標類別的二分類處理,得到所述每個文本數據的置信度;
置信度統計模塊,用于基于所述每個文本數據的置信度,得到所述目標類別對應的置信度統計數據;
用戶特征確定模塊,用于基于所述目標類別對應的置信度統計數據,得到所述目標用戶的類別特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111493424.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:核心業務系統接入隊列系統及方法
- 下一篇:財稅庫銀清算前置系統





