[發(fā)明專利]一種問答數(shù)據(jù)增強方法、裝置、計算機設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011192632.4 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112308237B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 譙軼軒;陳浩;高鵬 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 深圳市世聯(lián)合知識產(chǎn)權(quán)代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 問答 數(shù)據(jù) 增強 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種問答數(shù)據(jù)增強方法,其特征在于,所述方法包括:
獲取問答數(shù)據(jù)集,所述問答數(shù)據(jù)集包括多個數(shù)據(jù)點,以及每個數(shù)據(jù)點對應(yīng)的真實標簽;
基于預(yù)訓(xùn)練的預(yù)測模型和所述真實標簽,對所述問答數(shù)據(jù)集中的每個數(shù)據(jù)點進行第一軟標簽預(yù)測,得到所述問答數(shù)據(jù)集中每個數(shù)據(jù)點對應(yīng)的第一軟標簽;
將所述問答數(shù)據(jù)集中每個數(shù)據(jù)點及其對應(yīng)的所述第一軟標簽構(gòu)建為軟標簽數(shù)據(jù)集,利用知識蒸餾技術(shù)將所述軟標簽數(shù)據(jù)集和預(yù)測模型生成標注模型;
獲取待標簽數(shù)據(jù)集,將所述待標簽數(shù)據(jù)集輸入到所述標注模型進行預(yù)標注,并根據(jù)標注結(jié)果對所述待標簽數(shù)據(jù)集進行篩選,得到標注樣本集;
其中,所述基于預(yù)訓(xùn)練的預(yù)測模型和所述真實標簽,對所述問答數(shù)據(jù)集中的每個數(shù)據(jù)點進行第一軟標簽預(yù)測,得到所述問答數(shù)據(jù)集中每個數(shù)據(jù)點對應(yīng)的第一軟標簽包括:
將所述數(shù)據(jù)點對應(yīng)的所述真實標簽輸入到所述預(yù)測模型進行第一軟標簽的第一輪預(yù)測,得到第一輪預(yù)測結(jié)果;
將上一輪預(yù)測結(jié)果作為輸入,利用預(yù)測模型對所述問答數(shù)據(jù)集每個數(shù)據(jù)點進行第一軟標簽的m輪預(yù)測,得到所述第一軟標簽,其中m1;
其中,所述利用預(yù)測模型對所述問答數(shù)據(jù)集每個數(shù)據(jù)點進行第一軟標簽的m輪預(yù)測,得到所述第一軟標簽包括:
根據(jù)第m輪與第m-1輪的預(yù)測結(jié)果計算交叉熵損失函數(shù);
當所述損失函數(shù)小于第三預(yù)設(shè)數(shù)值,則停止預(yù)測,將所述第m輪的預(yù)測結(jié)果作為第一軟標簽輸出,其中m≥2。
2.根據(jù)權(quán)利要求1所述的問答數(shù)據(jù)增強方法,其特征在于,所述獲取待標簽數(shù)據(jù)集包括:
向數(shù)據(jù)庫發(fā)送調(diào)用請求,所述調(diào)用請求攜帶驗簽令牌;
接收所述數(shù)據(jù)庫返回的驗簽結(jié)果,并在驗簽結(jié)果為通過時,調(diào)用所述數(shù)據(jù)庫中的所述待標簽數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的問答數(shù)據(jù)增強方法,其特征在于,所述將所述待標簽數(shù)據(jù)集輸入到所述標注模型進行預(yù)標注,并根據(jù)標注結(jié)果對所述待標簽數(shù)據(jù)集進行篩選,得到標注樣本集包括:
將所述待標簽數(shù)據(jù)集中的待標簽數(shù)據(jù)點輸入到所述標注模型進行預(yù)標注得到標注結(jié)果,并計算每一個所述標注結(jié)果的置信度大??;
將所述標注結(jié)果的置信度大小與第一預(yù)設(shè)數(shù)值進行比較,刪除置信度小于等于第一預(yù)設(shè)數(shù)值的所述標注結(jié)果和所述待標簽數(shù)據(jù)點,并將所述待標簽數(shù)據(jù)集中剩余的所述待標簽數(shù)據(jù)點及其對應(yīng)的所述標注結(jié)果組成所述標注樣本集。
4.根據(jù)權(quán)利要求1所述的問答數(shù)據(jù)增強方法,其特征在于,在所述獲取待標簽數(shù)據(jù)集,將所述待標簽數(shù)據(jù)集輸入到所述標注模型進行預(yù)標注,并根據(jù)標注結(jié)果對所述待標簽數(shù)據(jù)集進行篩選,得到標注樣本集之后,還包括:
計算所述標注樣本集中的數(shù)據(jù)點數(shù)量與所述待標簽數(shù)據(jù)集中的待標簽數(shù)據(jù)點數(shù)量的比值;
若所述比值小于第二預(yù)設(shè)數(shù)值,則組合所述標注樣本集和所述問答數(shù)據(jù)集,重新對所述預(yù)測模型進行訓(xùn)練,直至所述比值大于等于所述第二預(yù)設(shè)數(shù)值為止。
5.根據(jù)權(quán)利要求1至4中任一項所述的問答數(shù)據(jù)增強方法,其特征在于,所述基于預(yù)訓(xùn)練的預(yù)測模型和所述真實標簽,對所述問答數(shù)據(jù)集中的每個數(shù)據(jù)點進行第一軟標簽預(yù)測之前,還包括:
將所述多個數(shù)據(jù)點向量化;
將向量化后的所述數(shù)據(jù)點通過交互處理得到新的向量表示;
將所述新的向量表示經(jīng)過線性變換后得到的結(jié)果,再經(jīng)過分類網(wǎng)絡(luò)處理后得到第二軟標簽;
根據(jù)所述數(shù)據(jù)點對應(yīng)的所述真實標簽和所述第二軟標簽計算交叉熵損失函數(shù),并基于所述交叉熵損失函數(shù)對初始預(yù)測模型的各層的權(quán)重參數(shù)進行調(diào)整,得到預(yù)訓(xùn)練的所述預(yù)測模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192632.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





