[發明專利]一種基于圖深度學習的文本多標簽分類方法和系統在審
| 申請號: | 202110352008.4 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113064995A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 魯繼東;林越峰;苗仲辰;王晨宇;倪夢珺;江航 | 申請(專利權)人: | 上海金融期貨信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/38;G06F40/30;G06K9/62 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200122 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文本 標簽 分類 方法 系統 | ||
1.一種基于圖深度學習的文本多標簽分類方法,其特征在于,方法包括:
步驟1:對原始采集數據進行預處理并進行文本向量化的處理,基于中文分詞后轉化為文本向量;
步驟2:對于步驟1處理得到的文本向量化結果,使用多標簽注意力網絡提取文本特征,最終得到文本特征提取的結果;
步驟3:在步驟2所得到的文本特征提取的基礎上,構建圖語義交互層,得到融合圖語義交互層的混合文本向量化的結果;
步驟4:在步驟3得到的融入語義交互層的文本向量化表示基礎上,采用特定損失函數訓練模型進行訓練,得到輸入文本每個標簽的輸出概率。
2.根據權利要求1所述的基于圖深度學習的文本多標簽分類方法,其特征在于,步驟1中的文本向量化的處理是以上下文語義嵌入表示來實現。
3.根據權利要求1所述的基于圖深度學習的文本多標簽分類方法,其特征在于,步驟2中采用多頭注意力進行文本特征提取。
4.根據權利要求1所述的基于圖深度學習的文本多標簽分類方法,其特征在于,步驟3中通過門控圖神經網絡根據標簽之間的統計關系進行特征交互,既在模型中顯式地融入標簽之間的關聯,又自適應地捕捉更豐富的相關文本特征。
5.根據權利要求1所述的基于圖深度學習的文本多標簽分類方法,其特征在于,步驟4中,采用非對稱損失函數處理正負樣本的非均衡分布,其中非對稱損失通過權重衰減因子和置信度閾值平衡正負樣本在損失中的占比。
6.一種基于圖深度學習的文本多標簽分類系統,其特征在于,系統包括:
文本向量化模塊,對原始采集數據進行預處理并進行文本向量化的處理,基于中文分詞后轉化為文本向量;
文本特征提取模塊,連接文本向量化模塊,對文本向量化結果,使用多標簽注意力網絡提取文本特征,最終得到文本特征提取的結果;
圖語義交互模塊,連接文本特征提取模塊,在文本特征提取的基礎上,構建圖語義交互層,得到融合圖語義交互層的混合文本向量化的結果;
標簽概率獲取模塊,連接圖語義交互模塊,在融入語義交互層的文本向量化表示基礎上,采用特定損失函數訓練模型進行訓練,得到輸入文本每個標簽的輸出概率。
7.根據權利要求6所述的基于圖深度學習的文本多標簽分類系統,其特征在于,文本向量化模塊的處理是以上下文語義嵌入表示來實現。
8.根據權利要求6所述的基于圖深度學習的文本多標簽分類系統,其特征在于,文本特征提取模塊采用多頭注意力進行文本特征提取。
9.根據權利要求6所述的基于圖深度學習的文本多標簽分類系統,其特征在于,圖語義交互模塊通過門控圖神經網絡根據標簽之間的統計關系進行特征交互,既在模型中顯式地融入標簽之間的關聯,又自適應地捕捉更豐富的相關文本特征。
10.根據權利要求6所述的基于圖深度學習的文本多標簽分類系統,其特征在于,標簽概率獲取模塊采用非對稱損失函數處理正負樣本的非均衡分布,其中非對稱損失通過權重衰減因子和置信度閾值平衡正負樣本在損失中的占比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海金融期貨信息技術有限公司,未經上海金融期貨信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110352008.4/1.html,轉載請聲明來源鉆瓜專利網。





