[發(fā)明專利]一種面向保險(xiǎn)文本的樣本采樣方法與裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202210219956.5 | 申請(qǐng)日: | 2022-03-08 |
| 公開(kāi)(公告)號(hào): | CN114741504A | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 丁鍇;那崇寧;陳奎 | 申請(qǐng)(專利權(quán))人: | 之江實(shí)驗(yàn)室 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/30;G06F40/194;G06Q40/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310023 浙江省杭州市余*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 保險(xiǎn) 文本 樣本 采樣 方法 裝置 | ||
本發(fā)明公開(kāi)了一種面向保險(xiǎn)文本的樣本采樣方法與裝置,該方法包括:基于語(yǔ)義的文本向量化和半監(jiān)督采樣兩部分。半監(jiān)督采樣又分為最遠(yuǎn)點(diǎn)采樣及標(biāo)注,基于分布的再采樣與再采樣樣本的標(biāo)注,模型分類精度驗(yàn)證等步驟。本發(fā)明方法基于語(yǔ)義向量化結(jié)合半監(jiān)督學(xué)習(xí)方法進(jìn)行樣本采樣,在極少標(biāo)注樣本的條件下,可以實(shí)現(xiàn)媲美全樣本標(biāo)注的模型精度和魯棒性,同時(shí)大幅減少模型訓(xùn)練的計(jì)算與時(shí)間成本。
技術(shù)領(lǐng)域
本發(fā)明屬于金融保險(xiǎn)文本識(shí)別領(lǐng)域,尤其涉及一種面向保險(xiǎn)文本的樣本采樣方法與裝置。
背景技術(shù)
隨著金融保險(xiǎn)行業(yè)信息化的發(fā)展,相關(guān)業(yè)務(wù)數(shù)據(jù)快速增長(zhǎng),人力的不足和精細(xì)化管理的需求使越來(lái)越多的深度學(xué)習(xí)模型被應(yīng)用,但相應(yīng)的數(shù)據(jù)標(biāo)注任務(wù)量也快速增加。如何標(biāo)注更少的樣本,達(dá)到更好的樣本多樣性和模型魯棒性,成為當(dāng)前金融保險(xiǎn)業(yè)模型研究的重要方向,它被稱為困難樣本挖掘問(wèn)題。困難樣本挖掘也是深度學(xué)習(xí)中的一項(xiàng)重要研究?jī)?nèi)容,相關(guān)研究分為兩個(gè)方向:其一是通過(guò)加權(quán)增大困難樣本的學(xué)習(xí)率,相關(guān)研究包括Focal loss,優(yōu)點(diǎn)是可以提高模型收斂速度,但缺點(diǎn)是標(biāo)注工作量未減少;其二是利用無(wú)監(jiān)督或者半監(jiān)督的方式對(duì)所有樣本進(jìn)行抽樣,找出易混淆的困難樣本,這種方法既可以減少標(biāo)注樣本的數(shù)量,又可以提高模型收斂速度,在實(shí)際工程應(yīng)用中更為有效。
文本樣本采樣通常包括兩個(gè)重要步驟,向量化和均勻采樣。向量化過(guò)程保證文本轉(zhuǎn)換為向量前后,相似性保持不變。均勻采樣保證采樣前后,樣本空間覆蓋范圍和空間結(jié)構(gòu)保持不變。文本向量化方式包括基于關(guān)鍵詞的向量化TF-IDF,BM25等,基于語(yǔ)義的向量化,如Topic-embedding,Sent-Bert。均勻采樣方法包括最遠(yuǎn)點(diǎn)采樣等。中國(guó)專利CN 112364130A公開(kāi)了一種文本采樣方法,使用字符編碼進(jìn)行文本向量化,并使用編輯距離計(jì)算文本距離,但是此方法不能很好表示文本之間的語(yǔ)義相似性。中國(guó)專利CN 112329427 A公開(kāi)了一種短信樣本的獲取方法,采用多重去重復(fù)的方式進(jìn)行短信采樣,使用短信模板結(jié)合短信來(lái)源時(shí)間等特征進(jìn)行相似度量化,并以分類不確定性指標(biāo)為最后一重篩選標(biāo)注樣本的方法,此方法對(duì)短信文本比較有效,但同樣未考慮樣本的語(yǔ)義相似性。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)不足,本發(fā)明提出了一種面向保險(xiǎn)文本的樣本采樣方法與裝置。
為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案為:
本發(fā)明實(shí)施例的第一方面提供了一種面向保險(xiǎn)文本的樣本采樣方法,包括以下步驟:
(1)構(gòu)建文本相似性判定預(yù)訓(xùn)練模型,通過(guò)該模型進(jìn)行文本向量化,得到總向量集;
(2)對(duì)總向量集進(jìn)行最遠(yuǎn)點(diǎn)初始采樣與標(biāo)注,實(shí)現(xiàn)采樣均勻分布于空間中,得到已選點(diǎn)集;
(3)設(shè)置樣本數(shù)量,對(duì)初始樣本集基于類間分布模型進(jìn)行再采樣,更新已選點(diǎn)集;
(4)設(shè)置采樣半徑比例和精度閾值,利用更新后的已選點(diǎn)集進(jìn)行模型訓(xùn)練與準(zhǔn)確度驗(yàn)證,直至符合準(zhǔn)確率,完成樣本采樣。
進(jìn)一步地,所述文本相似性判定預(yù)訓(xùn)練模型為Sent-Bert;所述Sent-Bert為一文本相似性度量模型,以預(yù)訓(xùn)練后的Bert為底層模型,在該底層模型增加一對(duì)基于池化的嵌入層,形成的共享底層參數(shù)的孿生網(wǎng)絡(luò)。
進(jìn)一步地,所述預(yù)訓(xùn)練具體為:通過(guò)人工標(biāo)注相似性的包括LCQMC,STS-B,ATEC在內(nèi)的中文數(shù)據(jù)庫(kù)對(duì)Sent Bert進(jìn)行精調(diào)訓(xùn)練。
進(jìn)一步地,將一對(duì)保險(xiǎn)文本輸入文本相似性判定預(yù)訓(xùn)練模型,輸出為兩個(gè)向量;第一向量為文本向量化后的結(jié)果,組成得到總向量集;第二向量為空。
進(jìn)一步地,所述步驟(2)具體包括以下子步驟:
(2.1)根據(jù)樣本的相似度與小樣本學(xué)習(xí)設(shè)置初始采樣集的樣本數(shù)量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于之江實(shí)驗(yàn)室,未經(jīng)之江實(shí)驗(yàn)室許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210219956.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 插芯式機(jī)械防盜保險(xiǎn)門鎖
- 一種自帶保險(xiǎn)的火焰自動(dòng)觸發(fā)開(kāi)關(guān)
- 吻合器及其保險(xiǎn)裝置
- 吻合器及其保險(xiǎn)裝置
- 一次性肛腸切割吻合器的保險(xiǎn)裝置
- 底座式雙柱舉升機(jī)手動(dòng)單邊解鎖雙聯(lián)動(dòng)保險(xiǎn)結(jié)構(gòu)
- 一種汽車電瓶正極保險(xiǎn)盒及其安裝方法
- 一種汽車保險(xiǎn)杠結(jié)構(gòu)
- 一種單發(fā)槍械的雙側(cè)保險(xiǎn)機(jī)構(gòu)
- 自動(dòng)保險(xiǎn)手動(dòng)開(kāi)啟式氣槍保險(xiǎn)裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)





