[發明專利]基于深度學習的文本分類方法、裝置、服務器及存儲介質在審
| 申請號: | 202011203373.0 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112329836A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 朱永強;伍文成 | 申請(專利權)人: | 成都網安科技發展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 成都極刻智慧知識產權代理事務所(普通合伙) 51310 | 代理人: | 唐維虎 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 文本 分類 方法 裝置 服務器 存儲 介質 | ||
1.一種基于深度學習的文本分類方法,其特征在于,應用于服務器,所述方法包括:
對訓練語料集合進行處理,構建所述訓練語料集合對應的詞權重表;
根據所述詞權重表計算所述訓練語料集合中每一訓練語料的分句的分句權重,并按照所述分句權重對每一訓練語料進行關鍵分句篩選,得到關鍵分句篩選后的訓練語料構成的訓練樣本集;
獲取所述訓練樣本集中不同預設長度分區的分區樣本集,并將每個分區樣本集分別輸入深度學習模型中進行訓練,得到不同預設長度分區的文本分類模型;
基于所述文本分類模型對輸入的待分類文本進行文本分類。
2.根據權利要求1所述的基于深度學習的文本分類方法,其特征在于,所述對訓練語料集合進行處理,構建所述訓練語料集合對應的詞權重表步驟,包括:
獲取訓練語料集合,所述訓練語料集合中的每個訓練語料包括訓練文本以及所述訓練文本的類別標簽;
對每個所述訓練文本進行分詞,得到所述訓練文本對應的分詞結果,所述分詞結果由多個分詞組成;
采用貝葉斯算法計算每個分詞的貝葉斯后驗概率,其中,所述貝葉斯后驗概率用于表示當一個目標分詞出現時,該目標分詞對應的訓練文本為每個類別標簽的概率;
對所述每個分詞的貝葉斯后驗概率進行統計,獲得所述每個分詞的類別標簽概率分布,并將所述類別標簽概率分布的方差作為所述每個分詞的詞權重,其中,所述類別標簽概率分布的方差表示所述類別標簽概率分布的離散程度,當離散程度越大時,所述類別標簽概率分布對應的類別標簽的區分能力越大;
對所述每個分詞的詞權重進行排序得到所述訓練語料集合對應的詞權重表。
3.根據權利要求1所述的基于深度學習的文本分類方法,其特征在于,所述根據所述詞權重表計算所述訓練語料集合中每一分句的分句權重的步驟,包括:
對所述訓練語料集合中每個訓練語料進行分句,得到至少一個分句;
對每個所述分句進行分詞,得到每個所述分句的分詞結果;
從所述詞權重表中獲得每個所述分句的分詞結果中每個分詞的詞權重,并將所述每個分詞的詞權重之和確定為所述分句的分句權重。
4.根據權利要求1所述的基于深度學習的文本分類方法,其特征在于,所述按照所述分句權重對每一訓練語料進行關鍵分句篩選,得到關鍵分句篩選后的訓練語料構成的訓練樣本集的步驟,包括:
計算每一訓練語料的文本長度,其中,所述文本長度為所述訓練語料中所有分句的分詞總數量;
若所述訓練語料的文本長度小于等于預設長度,則將所述訓練語料的所有分句作為關鍵分句后進行合并,輸出篩選后的訓練語料;
若所述訓練語料的文本長度大于所述預設長度,并且所述訓練語料的分句數量大于1,則按照所述分句權重對所述訓練語料的分句進行排序,選取排序結果中的前N個分句作為關鍵分句后進行合并,輸出篩選后的訓練語料,其中,N為正整數,并且篩選后的訓練語料的文本長度不大于所述預設長度;以及
若所述訓練語料的文本長度大于所述預設長度,并且所述訓練語料的分句數量為1,則將所述訓練語料中超出所述預設長度的分詞進行剔除后,輸出篩選后的訓練語料。
5.根據權利要求1所述的基于深度學習的文本分類方法,其特征在于,所述獲取所述訓練樣本集中不同預設長度分區的分區樣本集的步驟,包括:
獲取所述訓練樣本集中每個預設長度分區的初始分區樣本集;
判斷每個預設長度分區的初始分區樣本集中每個類別標簽的樣本數量與其它類別標簽的樣本數量的差異數量是否大于設定數量;
當該類別標簽的樣本數量與其它類別標簽的樣本數量的差異數量大于設定數量時,采用排列組合的方式對同類別標簽的其它預設長度分區的初始分區樣本集的分區樣本進行關鍵句篩選后,得到排列組合后的新增分句,并將所述新增分句添加到該預設長度分區的初始分區樣本集中,得到不同預設長度分區的分區樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都網安科技發展有限公司,未經成都網安科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011203373.0/1.html,轉載請聲明來源鉆瓜專利網。





