[發明專利]一種多標簽文本分類處理方法及系統、信息數據處理終端在審
| 申請號: | 202010106132.8 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111428026A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 裴慶祺;王玉燕;馬立川;肖陽 | 申請(專利權)人: | 西安電子科技大學;西安西電鏈融科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 文本 分類 處理 方法 系統 信息 數據處理 終端 | ||
本發明屬于自然語言處理技術領域,公開了一種多標簽文本分類處理方法及系統、信息數據處理終端。步驟包括:獲取數據集;對數據集進行預處理并劃分為訓練集和測試集;通過BERT預訓練模型微調提取文本序列中單詞的全局特征向量,采用卷積神經網絡對全局特征向量進行聚合,得到文本序列中單詞的語義向量;構建注意力權重系數矩陣,分別將每個單詞的語義向量與最優權重系數矩陣中權重系數向量加權,得到標簽的注意力向量;對標簽的注意力向量進行歸一化處理,得到每個標簽的概率,選取概率最大的幾個標簽做為文本的類別。本發明提取了文本序列的全局和局部特征,考慮了文本中關鍵詞對標簽類別的影響,提高了分類準確性。
技術領域
本發明屬于自然語言處理技術領域,尤其涉及一種多標簽文本分類處理方法及系統、信息數據處理終端。
背景技術
文本分類,是按照一定的分類體系或標準,將文本歸于預先給定的某一類或某幾類的過程,在自然語言處理和文本挖掘領域具有非常重要的意義。目前,文本分類在信息檢索、Web文檔自動分類、自動文摘、文本過濾等多個領域已經得到了廣泛的應用。多標簽文本分類,不同于傳統的二分類或多分類,要處理的是現實生活中文本具有多個類別的任務,屬于自然語言處理中既復雜又具有挑戰性的任務。
目前,多標簽文本分類算法可以分為兩大類:一是基于問題轉化的方法,將多標簽分類任務轉化成多個二分類或多分類問題,使其適用于現有算法,如:Native Bayes、SVM、DT等。二是基于算法適用的方法,指針對某一特定的算法進行擴展,從而能夠處理多標簽數據。如:ML-KNN、Rank-SVM等。發明人在研發過程中發現。現有方法存在以下技術問題:(1)提取文本語義信息時,表示文本序列中單詞的語義時,不能根據句子長短靈活調整上下文文本長度,文本中即使考慮了上下文,也很少有考慮語序的;(2)模型訓練時,標簽和文本序列中的部分關鍵詞的相關性往往起到很重要的作用,現有模型大多忽視了這一關系;(3)在預測標簽時,通常假設所有標簽都與文本有關,使得文本無關或相關性較低的標簽,也計算出了概率,增加了訓練誤差,降低了模型性能和分類的準確性。
解決以上問題及缺陷的難度為:一方面在于從文本信息到文本中每個單詞語義信息更精準表達,另一方面在于現有多標簽分類算法,對于標簽與文本序列中關鍵詞之間的關系的忽略,在分類時,不能依據句子中最重要的詞來判斷類別。
解決以上問題及缺陷的意義為:通過研究出更精準的詞向量表達和根據標簽與文本相關性提高文本關鍵單詞在分類模型所占的重要性,提高現有多標簽文本分類信息處理系統的性能,為相關部門挖掘出有效的信息以輔助決策。
發明內容
針對現有技術存在的問題,本發明提供了一種多標簽文本分類處理方法及系統、信息數據處理終端。
本發明是這樣實現的,一種多標簽文本分類處理方法,所述多標簽文本分類處理方法包括:
第一步,獲取包含文本序列和標簽空間的數據集;
第二步,對數據進行預處理,去除沒有意義的詞,繁體字轉換為簡體字等,將數據集劃分為訓練集和測試集;
第三步,通過BERT預訓練模型微調提取文本序列中所有單詞的全局特征向量,采用卷積神經網絡對得到的全局特征向量進行聚合,得到文本序列中每個單詞的語義向量,保存最佳語義向量模型;
第四步,分別計算每個標簽與文本序列中所有單詞的權重系數,構建注意力權重系數矩陣,調整得到最優權重系數矩陣,分別將每個單詞的語義向量與最優權重系數矩陣進行加權,得到標簽的注意力向量;
第五步,對所有標簽的注意力向量進行歸一化處理,得到每個標簽的概率,選取概率最大的幾個標簽作為文本的類別。
進一步,所述文本序列包含若干個字,每條文本對應的標簽空間包含多個標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學;西安西電鏈融科技有限公司,未經西安電子科技大學;西安西電鏈融科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010106132.8/2.html,轉載請聲明來源鉆瓜專利網。





