[發明專利]一種文檔分類方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110614052.8 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113515629A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 嚴蕾;蘇曉輝;任澤;沈志遠;李維盈;陳建 | 申請(專利權)人: | 中國神華國際工程有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/284;G06N20/00 |
| 代理公司: | 北京聿宏知識產權代理有限公司 11372 | 代理人: | 陳敏;吳昊 |
| 地址: | 100007 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 分類 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種文檔分類方法,其特征在于,包括:
獲取待分類的目標招標文檔;
基于所述目標招標文檔的文本內容提取分類特征向量;其中,所述分類特征向量至少包括所述目標招標文檔的標的物及分類信息;
將所述分類特征向量輸入預先建立的文檔分類模型,得到針對所述目標招標文檔的分類結果;其中,所述文檔分類模型是以歷史招標文檔為訓練數據、利用XGBoost算法對所述訓練數據進行機器學習、并建立分類特征向量與分類結果之間的映射關系的分類器。
2.根據權利要求1所述的文檔分類方法,其特征在于,所述基于所述目標招標文檔的文本內容提取分類特征向量,包括:
對所述目標招標文檔的文本內容進行預處理;
對預處理后的文本內容進行分詞處理并得到多個分詞;
基于所述多個分詞提取分類特征向量。
3.根據權利要求2所述的文檔分類方法,其特征在于,所述基于所述多個分詞提取分類特征向量,包括:
對所述多個分詞進行向量化表示,得到多個特征向量;
利用詞性級TF-IDF算法對多個特征向量進行加權處理,并得到各特征向量對應的文檔頻率;
根據所述文檔頻率從所述多個特征向量中確定分類特征向量。
4.根據權利要求1-3任一項所述的文檔分類方法,其特征在于,所述分類信息至少包括行業類別和項目類型。
5.根據權利要求2所述的文檔分類方法,其特征在于,所述對預處理后的文本內容進行分詞處理并得到多個分詞,包括:
基于N-Gram語言模型以滑動窗口方式對預處理后的文本內容進行分詞處理,并得到多個分詞。
6.根據權利要求5所述的文檔分類方法,其特征在于,所述N-Gram語言模型中N的取值為2和/或3。
7.根據權利要求3所述的文檔分類方法,其特征在于,所述根據所述文檔頻率從所述多個特征向量中確定分類特征向量,包括:
逐一判斷各特征向量的文檔頻率是否大于設定值;
保留文檔頻率不大于設定值的特征向量,作為分類特征向量。
8.一種文檔分類裝置,其特征在于,包括:
文檔獲取模塊,用于獲取待分類的目標招標文檔;
向量提取模塊,用于基于所述目標招標文檔的文本內容提取分類特征向量;其中,所述分類特征向量至少包括所述目標招標文檔的標的物及分類信息;
分類模塊,用于將所述分類特征向量輸入預先建立的文檔分類模型,得到針對所述目標招標文檔的分類結果;其中,所述文檔分類模型是以歷史招標文檔為訓練數據、利用XGBoost算法對所述訓練數據進行機器學習、并建立分類特征向量與分類結果之間的映射關系的分類器。
9.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國神華國際工程有限公司,未經中國神華國際工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110614052.8/1.html,轉載請聲明來源鉆瓜專利網。





