[發明專利]一種文檔分類方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110614052.8 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113515629A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 嚴蕾;蘇曉輝;任澤;沈志遠;李維盈;陳建 | 申請(專利權)人: | 中國神華國際工程有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/284;G06N20/00 |
| 代理公司: | 北京聿宏知識產權代理有限公司 11372 | 代理人: | 陳敏;吳昊 |
| 地址: | 100007 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 分類 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種文檔分類方法、裝置、計算機設備及存儲介質,涉及計算機及招標技術領域,該文檔分類方法包括:獲取待分類的目標招標文檔;基于目標招標文檔的文本內容提取分類特征向量;所述分類特征向量至少包括所述目標招標文檔的標的物及分類信息;所述分類特征向量輸入預先建立的文檔分類模型,得到針對所述目標招標文檔的分類結果;所述文檔分類模型是以歷史招標文檔為訓練數據、利用XGBoost算法對所述訓練數據進行機器學習、并建立分類特征向量與分類結果之間的映射關系的分類器。可見,本發明實現了招標業務的自動高效管理,無需工作人員進行復雜操作,使得招標業務更加智能化和電子化,在提高效率的同時還降低了人力成本。
技術領域
本發明涉及計算機及招標技術領域,特別涉及一種文檔分類方法、裝置、計算機設備及存儲介質。
背景技術
現有的文檔歸檔應用中,利用計算機對自然語言進行分類的技術已經涉及多個行業,然而,對于招標業務領域而言,由于招標業務數據繁多,使得工作人員難以實現對招標文檔的高效管理,因此,有必要提出一種適用于招標業務領域的文檔分類方案,以實現招標業務自動高效的管理,使得招標業務更加智能化、電子化。
發明內容
本發明要解決的技術問題是:提出一種適用于招標業務領域的文檔分類方案,以實現招標業務自動高效的管理,使得招標業務更加智能化、電子化。
為解決上述技術問題,本發明提供了一種文檔分類方法,包括:
獲取待分類的目標招標文檔;
基于所述目標招標文檔的文本內容提取分類特征向量;其中,所述分類特征向量至少包括所述目標招標文檔的標的物及分類信息;
將所述分類特征向量輸入預先建立的文檔分類模型,得到針對所述目標招標文檔的分類結果;其中,所述文檔分類模型是以歷史招標文檔為訓練數據、利用XGBoost算法對所述訓練數據進行機器學習、并建立分類特征向量與分類結果之間的映射關系的分類器。
可選地,所述基于所述目標招標文檔的文本內容提取分類特征向量,包括:
對所述目標招標文檔的文本內容進行預處理;
對預處理后的文本內容進行分詞處理并得到多個分詞;
基于所述多個分詞提取分類特征向量。
可選地,所述基于所述多個分詞提取分類特征向量,包括:
對所述多個分詞進行向量化表示,得到多個特征向量;
利用詞性級TF-IDF算法對多個特征向量進行加權處理,并得到各特征向量對應的文檔頻率;
根據所述文檔頻率從所述多個特征向量中確定分類特征向量。
可選地,所述分類信息至少包括行業類別和項目類型。
可選地,所述對預處理后的文本內容進行分詞處理并得到多個分詞,包括:
基于N-Gram語言模型以滑動窗口方式對預處理后的文本內容進行分詞處理,并得到多個分詞。
可選地,所述N-Gram語言模型中N的取值為2和/或3。
可選地,所述根據所述文檔頻率從所述多個特征向量中確定分類特征向量,包括:
逐一判斷各特征向量的文檔頻率是否大于設定值;
保留文檔頻率不大于設定值的特征向量,作為分類特征向量。
為解決上述技術問題,本發明提供了一種文檔分類裝置,包括:
文檔獲取模塊,用于獲取待分類的目標招標文檔;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國神華國際工程有限公司,未經中國神華國際工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110614052.8/2.html,轉載請聲明來源鉆瓜專利網。





