[發(fā)明專利]用于生成預標注樣本的方法、裝置、服務器和介質在審
| 申請?zhí)枺?/td> | 202210245321.2 | 申請日: | 2022-03-14 |
| 公開(公告)號: | CN114595697A | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設計)人: | 宋雙永;吳良慶;何曉冬 | 申請(專利權)人: | 京東科技信息技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06F16/31 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100176 北京市大興區(qū)經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 標注 樣本 方法 裝置 服務器 介質 | ||
1.一種用于生成預標注樣本的方法,包括:
獲取預設標注數據庫,其中,所述預設標注數據庫中記錄有問題文本與場景之間的對應關系;
獲取待進行預標注的多輪場景定位數據,其中,所述多輪場景定位數據中包括至少一個問句與對應的場景;
將所述多輪場景定位數據中的至少一個問句與所述預設標注數據庫中的問題文本進行匹配,將匹配的問題文本對應的場景確定為匹配場景;
根據所確定的匹配場景與進行匹配的至少一個問句對應的場景,基于所述多輪場景定位數據生成正、負樣本均衡的預標注樣本。
2.根據權利要求1所述的方法,其中,所述獲取預設標注數據庫,包括:
獲取預設的數據庫,其中,所述預設的數據庫中記錄有屬于同一場景的語義一致的問題文本;
獲取單輪匹配數據庫,其中,所述單輪匹配數據庫中包括至少兩個問題文本與用于表征所述至少兩個問題文本語義是否一致的標注信息;
根據所述單輪匹配數據庫對所述預設的數據庫進行擴充,生成所述預設標注數據庫。
3.根據權利要求1所述的方法,其中,所述將所述多輪場景定位數據中的至少一個問句與所述預設標注數據庫中的問題文本進行匹配,將匹配的問題文本對應的場景確定為匹配場景,包括:
將所述多輪場景定位數據中的至少一個問句確定為多條件檢索的至少一個查詢詞;
將所述預設標注數據庫中與所確定的至少一個查詢詞匹配的問題文本對應的場景確定為匹配場景。
4.根據權利要求3所述的方法,其中,所述將所述預設標注數據庫中與所確定的至少一個查詢詞匹配的問題文本對應的場景確定為匹配場景,包括:
利用與線上應用相一致的搜索引擎構建的索引對所述預設標注數據庫中的預設標注數據進行召回,其中,所述預設標注數據包括問題文本與場景之間的對應關系;
利用預先訓練的匹配模型從召回結果中確定與所述至少一個查詢詞匹配的場景作為匹配場景。
5.根據權利要求1-4之一所述的方法,其中,所述根據所確定的匹配場景與進行匹配的至少一個問句對應的場景,基于所述多輪場景定位數據生成正、負樣本均衡的預標注樣本,包括:
根據所確定的匹配場景與進行匹配的至少一個問句對應的場景是否匹配,對應生成正樣本或負樣本;
從所生成的正樣本和負樣本中選取數目一致的正、負樣本作為正、負樣本均衡的預標注樣本。
6.一種用于預訓練模型的方法,包括:
利用正、負樣本均衡的預標注樣本對初始預訓練模型進行訓練,得到中間預訓練模型,其中,所述初始預訓練模型用于表征問題文本與場景之間的對應關系;
利用基于所述預標注樣本進行人工校驗的標注樣本對所述中間預訓練模型進行繼續(xù)訓練,生成預訓練模型,其中,所述標注樣本的數量小于所述預標注樣本的數量。
7.一種用于生成預標注樣本的裝置,包括:
第一獲取單元,被配置成獲取預設標注數據庫,其中,所述預設標注數據庫中記錄有問題文本與場景之間的對應關系;
第二獲取單元,被配置成獲取待進行預標注的多輪場景定位數據,其中,所述多輪場景定位數據中包括至少一個問句與對應的場景;
匹配單元,被配置成將所述多輪場景定位數據中的至少一個問句與所述預設標注數據庫中的問題文本進行匹配,將匹配的問題文本對應的場景確定為匹配場景;
生成單元,被配置成根據所確定的匹配場景與進行匹配的至少一個問句對應的場景,基于所述多輪場景定位數據生成正、負樣本均衡的預標注樣本。
8.一種用于預訓練模型的裝置,包括:
初始訓練單元,被配置成利用正、負樣本均衡的預標注樣本對初始預訓練模型進行訓練,得到中間預訓練模型,其中,所述初始預訓練模型用于表征問題文本與場景之間的對應關系;
再訓練單元,被配置成利用基于所述預標注樣本進行人工校驗的標注樣本對所述中間預訓練模型進行繼續(xù)訓練,生成預訓練模型,其中,所述標注樣本的數量小于所述預標注樣本的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技信息技術有限公司,未經京東科技信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210245321.2/1.html,轉載請聲明來源鉆瓜專利網。





