[發明專利]基于小樣本學習實現多語言混合短文本分類處理的系統、方法、裝置、存儲器及其存儲介質在審
| 申請號: | 202110886442.0 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113535961A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 王永劍;孫亞茹;楊瑩 | 申請(專利權)人: | 公安部第三研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 王潔;鄭暄 |
| 地址: | 200031*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 學習 實現 語言 混合 文本 分類 處理 系統 方法 裝置 存儲器 及其 存儲 介質 | ||
本發明涉及一種基于小樣本學習實現多語言混合短文本分類處理的系統,其中,該系統包括數據采集模塊,用于將少量預設標簽樣本輸入至該系統;數據預處理模塊,用于對所述的預設標簽樣本進行數據預處理;模型計算處理模塊,用于進行關鍵特征提取,并生成相應的模型準確率計算結果;模型生成及輸出模塊,用于預測出當前文本數據的模型預測結果,并通過對所述的模型預測結果的抽樣審核處理,進一步更新迭代該輸出模型。本發明還涉及一種相應的方法、裝置、處理器及其存儲介質。采用了本發明的該系統、方法、裝置、處理器及其存儲介質,利用小樣本學習較省時省力的完成對大規模數據潛在信息的挖掘,有效獲取構詞信息及詞互相關信息,具有較大的創新性。
技術領域
本發明涉及深度學習技術領域,尤其涉及自然語言處理技術領域,具體是指一種基于小樣本學習實現多語言混合短文本分類處理的系統、方法、裝置、存儲器及其計算機可讀存儲介質。
背景技術
文本分類是對文本分配標簽的任務,是自然語言處理中重要且基礎的任務之一,其有利支撐許多下游任務,如情感分類、主題抽取等。對發文平臺的價值信息挖掘離不開關鍵的文本分類技術。發文多屬于短文本,且存在句子較短、多語言、內容多樣性、非正式性、語法錯誤、流行語、俚語等特點,因此需要一種有效的文本分類技術可以解決具有多種語言混合的短文本分類。
傳統的文本分類算法較多關注文本的線性表達,例如采用詞典或n-gram詞向量作為輸入的支持向量機模型。近些年的研究表明,非線性模型可以有效捕獲文本上下文信息,可以產生比線性模型更精準的預測。卷積神經網絡模型是一種典型的非線性模型,它將數據的局部特征轉換成低維向量,并保留了與任務相關的信息。這種有效的映射方式在短文本上的表現要比序列模型更優秀。
卷積神經網絡采用最大池化獲取數據區域特征信息,在計算時只保留區域數值最大的特征。隨著卷積層數的增多,會逐漸丟失目標相關的定位信息。文本區域可以表達更復雜的概念,這種僅依靠提取特征區域最大化來提取區域中最顯著的特征信息的學習方式忽略了其它有用的信息。另外,網絡層之間的耦合連接會增加模型的冗余。
除模型的性能外,數據特征的質量對下游任務的結果也有著較大的影響。面對多語言混合的短文本,現有的模型,如Multi-lingual Bert和LASER等多語言模型無法較好的在同一特征空間表征不同語言的特征。導致多語言之間不能在同一特征空間表征計算,出現了語義偏差的現象。
注意力機制是一種有效關注模型輸入數據中關鍵信息的方法。注意力模型不僅在訓練過程中特別關注特征信息,而且針對不同的特征有效調整神經網絡的參數,可以挖掘更多的隱藏特征信息。
發明內容
本發明的目的是克服了上述現有技術的缺點,提供了一種能夠有效獲取構詞信息及詞互相關信息的基于小樣本學習實現多語言混合短文本分類處理的系統、方法、裝置、存儲器及其計算機可讀存儲介質。
為了實現上述目的,本發明的基于小樣本學習實現多語言混合短文本分類處理的系統、方法、裝置、存儲器及其計算機可讀存儲介質如下:
該基于小樣本學習實現多語言混合短文本分類處理的系統,其主要特點是,所述的系統包括:
數據采集模塊,用于將少量預設標簽樣本輸入至該系統;
數據預處理模塊,與所述的數據采集模塊相連接,用于對所述的預設標簽樣本進行數據集劃分、數據清洗以及批量處理操作;
模型計算處理模塊,與所述的數據預處理模塊相連接,用于根據預處理后獲取的文本數據進行關鍵特征提取,并生成相應的模型準確率計算結果;以及
模型生成及輸出模塊,與所述的模型計算處理模塊相連接,用于根據所述的模型準確率計算結果預測出當前文本數據的模型預測結果,并通過對所述的模型預測結果的抽樣審核處理,進一步更新迭代該輸出模型。
較佳地,所述的模型計算處理模塊具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于公安部第三研究所,未經公安部第三研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110886442.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通過GPRS定位測速的智能車燈
- 下一篇:一種電網數據全鏈路監控系統





