[發明專利]一種面向保險文本的樣本采樣方法與裝置在審
| 申請號: | 202210219956.5 | 申請日: | 2022-03-08 |
| 公開(公告)號: | CN114741504A | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 丁鍇;那崇寧;陳奎 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/194;G06Q40/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 保險 文本 樣本 采樣 方法 裝置 | ||
1.一種面向保險文本的樣本采樣方法,其特征在于,包括以下步驟:
(1)構建文本相似性判定預訓練模型,通過該模型進行文本向量化,得到總向量集;
(2)對總向量集進行最遠點初始采樣與標注,實現采樣均勻分布于空間中,得到已選點集;
(3)設置樣本數量,對初始樣本集基于類間分布模型進行再采樣,更新已選點集;
(4)設置采樣半徑比例和精度閾值,利用更新后的已選點集進行模型訓練與準確度驗證,直至符合準確率,完成樣本采樣。
2.根據權利要求1所述的面向保險文本的樣本采樣方法,其特征在于,所述文本相似性判定預訓練模型為Sent-Bert;所述Sent-Bert為一文本相似性度量模型,以預訓練后的Bert為底層模型,在該底層模型增加一對基于池化的嵌入層,形成的共享底層參數的孿生網絡。
3.根據權利要求2所述的面向保險文本的樣本采樣方法,其特征在于,所述預訓練具體為:通過人工標注相似性的包括LCQMC,STS-B,ATEC在內的中文數據庫對Sent Bert進行精調訓練。
4.根據權利要求1所述的面向保險文本的樣本采樣方法,其特征在于,將一對保險文本輸入文本相似性判定預訓練模型,輸出為兩個向量;第一向量為文本向量化后的結果,組成得到總向量集;第二向量為空。
5.根據權利要求1所述的面向保險文本的樣本采樣方法,其特征在于,所述步驟(2)具體包括以下子步驟:
(2.1)根據樣本的相似度與小樣本學習設置初始采樣集的樣本數量;
(2.2)選擇初始點,選擇距離數據中心最遠的點,針對文本數據,利用余弦相似性計算向量間的相似度,將所有相似度進行排序,將最大的相似度作為距離其他文本向量最遠的向量,建立已選點集;
(2.3)計算其他點與已選點集的距離,選擇最遠點,更新已選點集;
(2.4)重復上述步驟(2.1)~步驟(2.3),直到已選點集的樣本數量達到設置初始采樣集的樣本數量;
(2.5)對步驟(2.4)得到采樣樣本,根據文本分類進行手動標注。
6.根據權利要求1所述的面向保險文本的樣本采樣方法,其特征在于,所述步驟(3)具體為:假定每類樣本都符合高斯分布,計算不同類樣本的中心點和類內密度;計算類別邊界和不同類中心之間邊界點,將其表示為兩類中心點的加權均值;根據邊界點密度計算采樣數量,利用大密度類的高斯標準差無偏估計設定采樣半徑,在邊界點周圍進行再采樣,更新已選點集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210219956.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于頭戴式顯示器的光學系統
- 下一篇:一種鮑魚自動宰殺流水線設備及其宰殺方法





