[發明專利]一種文檔分類方法、系統、計算機設備及存儲介質在審
| 申請號: | 202211000816.5 | 申請日: | 2022-08-19 |
| 公開(公告)號: | CN115292498A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 李剛 | 申請(專利權)人: | 北京華宇九品科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 北京智行陽光知識產權代理事務所(普通合伙) 11738 | 代理人: | 孫雪廣 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 分類 方法 系統 計算機 設備 存儲 介質 | ||
1.一種文檔分類方法,其特征在于,包括:
監測是否有新類別的目標文檔輸入至預先構建的文檔分類模型;
響應于有新類別的目標文檔,利用預設的分詞算法對目標文檔進行分詞處理且得到目標語料庫,并生成對應于所述目標語料庫的詞匯級向量;
利用漢語言模型N-Gram對所述目標語料庫中的各單詞進行片段切分,得到各單詞對應的字符級向量;
將所述詞匯級向量和所述字符級向量構成的特征向量作為新的訓練數據并輸入所述文檔分類模型,進而利用新的訓練數據對所述文檔分類模型進行優化,并基于優化后的文檔分類模型輸出目標文檔的分類結果。
2.根據權利要求1所述的文檔分類方法,其特征在于,還包括:
在未監測到新類別的目標文檔的情況下,直接利用預先構建的所述文檔分類模型對所述目標文檔進行識別,且輸出分類結果。
3.根據權利要求1所述的文檔分類方法,其特征在于,預先構建文檔分類模型的步驟包括:
構建訓練數據和測試數據,并分別對訓練數據和測試數據標注類別標簽;
利用預設的分詞算法對訓練數據中的文檔進行分詞處理且得到訓練語料庫,并生成對應于所述訓練語料庫的詞匯級向量;
利用漢語言模型N-Gram對所述訓練語料庫中的各單詞進行片段切分,得到各單詞對應的字符級向量;
將所述詞匯級向量和所述字符級向量構成的特征向量作為訓練數據,輸入至基于Softmax分類器構建的文檔分類模型中,通過Softmax分類器的輸入層、隱含層并經輸出層輸出訓練數據的分類結果;以及,
將所述測試數據輸入至所構建的文檔分類模型,并輸出所述測試數據的測試分類結果;利用所述測試數據的類別標簽對所述測試分類結果進行準確性測試。
4.根據權利要求3所述的文檔分類方法,其特征在于,所述生成對應于所述訓練語料庫的詞匯級向量之前,還包括:
對訓練語料庫中的停用詞進行數據清洗;
對數據清洗后的訓練語料庫進行降維處理。
5.根據權利要求3所述的文檔分類方法,其特征在于,還包括:
將測試分類結果與對應的類別標簽不一致的測試數據作為修正訓練數據;
將所述修正訓練數據輸入至所述文檔分類模型,通過調整所述Softmax分類器的參數使得模型輸出的分類結果為對應的類別標簽為止完成修正處理。
6.根據權利要求3所述的文檔分類方法,其特征在于,所述將所述詞匯級向量和所述字符級向量構成的特征向量作為訓練數據,輸入至基于Softmax分類器構建的文檔分類模型中的步驟,包括:
將所述詞匯級向量和所述字符級向量進行疊加,并對疊加后的向量求平均,進而得到作為訓練數據的特征向量。
7.根據權利要求4所述的文檔分類方法,其特征在于,
所述Softmax分類器的學習率設置為0.6~1.2;
特征向量維度設置為200~300;
模型訓練時的循環迭代次數設置為300~500;
漢語言模型N-Gram為一元模型。
8.一種文檔分類系統,其特征在于,包括:
新類別監測單元,用于檢測是否有新類別的目標文檔輸入至預先構建的文檔分類模型;
單詞切分單元,用于響應于有新類別的目標文檔,利用預設的分詞算法對目標文檔進行分詞處理且得到目標語料庫,并生成對應于所述目標語料庫的詞匯級向量;
字符切分單元,用于利用漢語言模型N-Gram對所述目標語料庫中的各單詞進行片段切分,得到各單詞對應的字符級向量;
分類及模型優化單元,用于將所述詞匯級向量和所述字符級向量構成的特征向量作為新的訓練數據并輸入所述文檔分類模型,進而利用新的訓練數據對所述文檔分類模型進行優化,并基于優化后的文檔分類模型輸出目標文檔的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華宇九品科技有限公司,未經北京華宇九品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211000816.5/1.html,轉載請聲明來源鉆瓜專利網。





