[發(fā)明專利]基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的系統(tǒng)、方法、裝置、存儲器及其存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110886442.0 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113535961A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 王永劍;孫亞茹;楊瑩 | 申請(專利權(quán))人: | 公安部第三研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 王潔;鄭暄 |
| 地址: | 200031*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 樣本 學(xué)習(xí) 實(shí)現(xiàn) 語言 混合 文本 分類 處理 系統(tǒng) 方法 裝置 存儲器 及其 存儲 介質(zhì) | ||
1.一種基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的系統(tǒng),其特征在于,所述的系統(tǒng)包括:
數(shù)據(jù)采集模塊,用于將少量預(yù)設(shè)標(biāo)簽樣本輸入至該系統(tǒng);
數(shù)據(jù)預(yù)處理模塊,與所述的數(shù)據(jù)采集模塊相連接,用于對所述的預(yù)設(shè)標(biāo)簽樣本進(jìn)行數(shù)據(jù)集劃分、數(shù)據(jù)清洗以及批量處理操作;
模型計(jì)算處理模塊,與所述的數(shù)據(jù)預(yù)處理模塊相連接,用于根據(jù)預(yù)處理后獲取的文本數(shù)據(jù)進(jìn)行關(guān)鍵特征提取,并生成相應(yīng)的模型準(zhǔn)確率計(jì)算結(jié)果;以及
模型生成及輸出模塊,與所述的模型計(jì)算處理模塊相連接,用于根據(jù)所述的模型準(zhǔn)確率計(jì)算結(jié)果預(yù)測出當(dāng)前文本數(shù)據(jù)的模型預(yù)測結(jié)果,并通過對所述的模型預(yù)測結(jié)果的抽樣審核處理,進(jìn)一步更新迭代該輸出模型。
2.根據(jù)權(quán)利要求1所述的基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的系統(tǒng),其特征在于,所述的模型計(jì)算處理模塊具體包括:
字詞信息處理單元,與所述的數(shù)據(jù)預(yù)處理模塊相連接,用于將經(jīng)過批量處理后獲取的所述的少量標(biāo)簽文本數(shù)據(jù)樣本進(jìn)行n元詞法切分、字詞嵌入以及字詞集合的迭代處理;
文本特征嵌入單元,與所述的字詞信息處理單元相連接,用于將經(jīng)過上述迭代處理后的字詞信息組合成文本整體特征作為有效卷積層的輸入;
文本關(guān)鍵區(qū)域特征單元,與所述的文本特征嵌入單元相連接,用于獲取文本整體特征中的文本關(guān)鍵特征信息;
文本類別判斷單元,與所述的文本關(guān)鍵區(qū)域特征單元相連接,用于分析并計(jì)算出當(dāng)前輸入文本所屬的分類類別;以及
模型準(zhǔn)確率計(jì)算單元,與所述的文本類別判斷單元相連接,用于將經(jīng)過上述文本處理后所得的文本信息進(jìn)行模型準(zhǔn)確率的計(jì)算處理。
3.根據(jù)權(quán)利要求2所述的基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的系統(tǒng),其特征在于,所述的模型生成及輸出模塊具體包括:
模型預(yù)測處理單元,用于輸入多語言混合短文本數(shù)據(jù),進(jìn)行模型預(yù)測;
預(yù)測結(jié)果輸出單元,與所述的模型預(yù)測處理單元相連接,用于輸出模型預(yù)測結(jié)果;以及
抽樣審核單元,與所述的預(yù)測結(jié)果輸出單元相連接,用于對模型預(yù)測結(jié)果進(jìn)行抽樣審核以此來檢測該預(yù)測模型的準(zhǔn)確性。
4.根據(jù)權(quán)利要求3所述的基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的系統(tǒng),其特征在于,所述的抽樣審核單元通過系統(tǒng)預(yù)設(shè)閾值根據(jù)以下規(guī)則判斷是否進(jìn)行更新校準(zhǔn):
如果所述的抽樣審核單元抽樣審核的文本數(shù)據(jù)大于閾值,則添加標(biāo)簽新數(shù)據(jù)至所述的數(shù)據(jù)采集模塊進(jìn)行模型的迭代更新處理;否則
所述的抽樣審核單元抽樣審核的文本數(shù)據(jù)不大于閾值,則需要進(jìn)行校準(zhǔn)處理后再添加標(biāo)簽新數(shù)據(jù)至所述的數(shù)據(jù)采集模塊進(jìn)行模型的迭代更新處理。
5.一種利用權(quán)利要求4所述的系統(tǒng)實(shí)現(xiàn)基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的方法,其特征在于,所述的方法包括以下步驟:
(1)從多語言混合短文本中獲取文本子詞信息;
(2)對所述的文本子詞信息進(jìn)行數(shù)據(jù)集劃分、數(shù)據(jù)清洗以及批量操作的預(yù)處理;
(3)對經(jīng)過預(yù)處理后的所述文本子詞信息進(jìn)行文本特征嵌入,獲取有效卷積層的輸入信息;
(4)采用不同核卷積,獲取所述的文本子詞信息的鄰近詞信息以及文本關(guān)鍵區(qū)域信息;
(5)通過概率分布判斷文本所屬類別;
(6)根據(jù)類別信息進(jìn)行分類模型的預(yù)測以及挖掘新的文本數(shù)據(jù)信息的處理,并進(jìn)行模型的更新和迭代。
6.根據(jù)權(quán)利要求5所述的基于小樣本學(xué)習(xí)實(shí)現(xiàn)多語言混合短文本分類處理的方法,其特征在于,所述的步驟(3)具體包括以下步驟:
(3.1)查找字詞,若無,則按n元語法切分形成子詞庫,且切分前先查找特殊子詞,進(jìn)入步驟(3.3);否則,進(jìn)入步驟(3.2);
(3.2)若有,則按特殊子詞切分,其余部分按n元語法切分,否則直接按n元語法切分,形成相應(yīng)的形成子詞庫,并進(jìn)入步驟(3.3);
(3.3)將切分后形成的子詞庫仿射變換到詞層面的表征,同時(shí)將新表征的詞作為特殊子詞增加到子詞集合中,計(jì)算高一層的子詞表征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于公安部第三研究所,未經(jīng)公安部第三研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110886442.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 互動(dòng)業(yè)務(wù)終端、實(shí)現(xiàn)系統(tǒng)及實(shí)現(xiàn)方法
- 街景地圖的實(shí)現(xiàn)方法和實(shí)現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實(shí)現(xiàn)裝置及其圖像實(shí)現(xiàn)方法
- 增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)方法以及實(shí)現(xiàn)裝置
- 軟件架構(gòu)的實(shí)現(xiàn)方法和實(shí)現(xiàn)平臺
- 數(shù)值預(yù)報(bào)的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 輸入設(shè)備實(shí)現(xiàn)方法及其實(shí)現(xiàn)裝置





