[發明專利]一種基于深度學習的文本單類分類方法及系統在審
| 申請號: | 202010835617.0 | 申請日: | 2020-08-19 |
| 公開(公告)號: | CN112015894A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 金佳佳;陸俊杰;王開紅 | 申請(專利權)人: | 銀江股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 杭州之江專利事務所(普通合伙) 33216 | 代理人: | 張慧英 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文本 分類 方法 系統 | ||
1.一種基于深度學習的文本單類分類方法,其特征在于包括以下步驟:
文本預處理步驟:收集單類文本數據I分為目標數據和目標模板數據,通過預訓練模型構造字符向量矩陣并對目標數據和目標模板數據進行向量化處理,得到目標文本向量空間和目標模板文本向量空間;
構建深度學習特征提取網絡步驟:目標文本向量空間和目標模板文本向量空間經過卷積計算層、池化層、全連接層后輸出目標特征和目標模板特征;
生成單類分類模型步驟:對目標模板特征構建鄰域覆蓋,得到目標模板鄰域集和目標模板鄰域覆蓋;計算目標特征在目標模板鄰域集的隸屬度,輸出模糊鄰域覆蓋,基于鄰域覆蓋的隸屬關系,輸出目標特征屬于目標模板鄰域覆蓋的概率,并迭代更新網絡參數,生成單類分類模型,該單類分類模型包括:將文本數據向量化處理預訓練模型、訓練好的深度學習特征提取網絡、構建鄰域覆蓋及模糊鄰域覆蓋的分類模型;
單類分類預測步驟:將單類文本數據II輸入單類分類模型,得到鄰域覆蓋,將待預測樣本輸入到單類分類模型中的預訓練模型、深度學習特征提取網絡,生成特征,計算輸出特征屬于鄰域覆蓋的概率P,根據概率P對待預測樣本進行類別預測。
2.根據權利要求1所述的一種基于深度學習的文本單類分類方法,其特征在于,所述的單類文本數據為包含多種類別的數據中,數量較多的某一類別的數據。
3.根據權利要求1所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的構建深度學習特征提取網絡的卷積計算層采用256個濾波器對目標文本向量空間和目標模板文本向量空間進行三層卷積計算。
4.根據權利要求3所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的鄰域覆蓋基于樣本之間的相似度或者距離構造鄰域,采用異構歐氏重疊度量(HEOM)來測量樣本距離,形成全局數據分布的集合級近似值。
5.根據權利要求4所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的模糊鄰域覆蓋由隸屬度函數組成并取最大值。
6.根據權利要求4所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的生成單類分類模型步驟中,計算輸出目標特征屬于目標模板鄰域覆蓋的概率的平均值,得到模型損失值,以損失值最小化迭代更新網絡參數。
7.根據權利要求1-6任一權利要求所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的類別預測為二分類,確定隸屬度閾值,概率P隸屬度閾值,表示屬于該單類;否則不屬于該單類。
8.根據權利要求1-6任一權利要求所述的一種屬于深度學習的文本單類分類方法,其特征在于,所述的類別預測為三分類,確定一組隸屬度閾值{(α,β),0≤β<α≤1},當概率P≥α,則屬于該單類;當β概率Pα,則不確定該單類;當概率P≤β,則不屬于該單類。
9.一種基于深度學習的文本單類分類系統,其特征在于包括:文本數據獲取模塊、文本預處理模塊、深度學習特征提取網絡、單類分類模型、分類預測模塊,其中:
文本數據獲取模塊用于獲取單類文本數據II、待預測樣本;
文本預處理模塊,內設用于文本數據向量化處理的預訓練模型,接收單類文本數據II、待預測樣本,輸出單類文本數據II、待預測樣本的向量空間;
深度學習特征提取網絡,內設訓練好的深度學習特征提取網絡,包括卷積計算層、池化層、全連接層,接收單類文本數據II、待預測樣本的向量空間,輸出單類文本數據II、待預測樣本的特征;所述訓練好的深度學習特征提取網絡以單類文本數據I作為訓練數據;
單類分類模型,內設訓練好的單類分類模型,包括構建鄰域覆蓋單元、模糊鄰域覆蓋單元,接收單類文本數據II的特征,輸出單類文本數據II的鄰域覆蓋;所述訓練好的單類分類模型以單類文本數據I作為訓練數據;
分類預測模塊,計算待預測樣本的特征與單類文本數據II的鄰域覆蓋的隸屬度概率,根據概率的大小判斷待預測樣本與單類文本數據II屬于同一類別的可能性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀江股份有限公司,未經銀江股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010835617.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于速度比的電泳生產自動防堵塞裝置
- 下一篇:內容展示方法及裝置





