[發明專利]一種文本多標簽分類方法及系統有效
| 申請號: | 202111057725.0 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113672736B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 王本強;謝赟;吳新野;韓欣 | 申請(專利權)人: | 上海德拓信息技術股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06N20/00 |
| 代理公司: | 上海中外企專利代理事務所(特殊普通合伙) 31387 | 代理人: | 孫益青 |
| 地址: | 200233 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標簽 分類 方法 系統 | ||
本發明公開了一種文本多標簽分類方法及系統,方法包含:獲取目標文本數據及其標注標簽并處理得到文本數據及其標注標簽;將文本數據進行數據增廣;對增廣后的文本數據及其標注標簽構建深度學習模型;將待處理數據輸入深度學習模型中獲取待處理數據的標簽數據;對標簽數據進行判別處理得到待處理數據的標注標簽;系統包含數據處理模塊獲取目標文本數據及其標注標簽并處理得到文本數據及其標注標簽;數據增廣模塊對文本數據進行數據增廣;深度學習模型構建模塊用于構建深度學習模型,還用于獲取待處理數據并輸入深度學習模型中獲取待處理數據的標簽數據;判別處理模塊用于對標簽數據進行判別得到待處理數據的標注標簽。
技術領域
本發明涉及一種文本多標簽分類領域,具體涉及一種文本多標簽分類方法及系統。
背景技術
文本多標簽服務是對文章的標題和內容進行深度分析,自動輸出能夠反映文章關鍵信息的主題、話題、實體等多維度標簽,包含多維度信息,全面覆蓋文章關鍵信息主題,可廣泛應用于文章聚合、個性化推薦、內容檢索等場景;
目前文本多標簽技術存在以下幾種實現方案:
1.將文本數據的每個字或詞,通過one-hot編碼成數字向量,再計算數字向量與樣本數據的數字向量之間的歐氏距離或余弦相似度,此方法具有一定的效果,但是其不可避免的會出現維度災難、計算量大、向量稀疏等問題,極大降低了文本分類的準確率和效率;
2.利用機器學習算法,如極端梯度提升樹(Xgboost)、支持向量機(SVM)、邏輯回歸等,其思想是利用特征工程,通過文本預處理、文本表示、特征提取將數據轉化為信息后,利用機器學習算法進行分類,并取得了一定的成就,但一方面特征工程耗時且不具備通用性;一方面文本表示存在稀疏問題;一方面在分類決策時,僅僅考慮詞的信息,未考慮順序等融合問題;
3.利用深度學習算法,其思想是通過詞向量模型,將文本數據轉化為稠密的向量,再利用lstm、textcnn等算法進行分類,但這些算法都沒有文本的先驗信息;
4.利用bert等預訓練語言模型,其通過大量先驗知識訓練字向量,再將包含先驗知識的字向量喂入深度學習模型,能夠取得較好的效果,但一方面,其并未考慮樣本不均衡情況;一方面,對于數據量不足情況時,其魯棒性較差;
對于文本多層級分類來說,一般來說有以下兩種處理方案:
1.建立多個層級分類模型,即根據標簽的層級關系一層層構建多個模型,其一定程度上能融合文本層級信息,但一方面隨著層級結構加深,模型數量和耗時呈指數級增加;一方面這種遞進式方式,極易造成誤差的傳播;
2.將標簽體系拍平,其基本思想是對層級結構拆分,所有標簽一視同仁,再利用單層級的模型進行分類,此方法好處是簡單高效,但其并未融合標簽的層級關聯信息,丟失了層級的整體性。
發明內容
本發明要解決的技術問題是現有的文本多標簽計算量大、存在向量稀疏等問題,極大降低了文本分類的準確率和效率,本發明提供一種文本多標簽分類方法,本發明還提供一種文本多標簽分類系統,能夠避免誤差的傳播并提高了運算效率,采用同義詞替換、隨機插入、隨機交換、隨即刪除、漢英互譯的文本增廣方式,緩解了訓練數據數據量不足和樣本不均衡的問題;在模型層采用FGM模型,增加了模型的魯棒性;訓練時利用FP16方法,加快了模型的訓練速度;損失函數采用focal?loss,緩解了樣本不均衡問題;采用BMA加權模型最后幾個批次的參數,提高了模型的泛化能力;利用標簽了層級信息,模型訓練時注入了標簽之間的關聯信息,同時也保障了層級的完整性能夠對自然語言文本進行解析,從而精準定位文檔主題,將文檔主題提煉成多個包含層級信息的標簽,從而滿足用戶進行文檔管理、推薦、檢索等需求,用以解決現有技術導致的缺陷。
為解決上述技術問題本發明提供以下的技術方案:
第一方面,一種文本多標簽分類方法,其中,包含以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海德拓信息技術股份有限公司,未經上海德拓信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111057725.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高原瀝青公路防水施工設備及施工方法
- 下一篇:一種雙層孔帶式水果分級裝置





