[發明專利]一種電子文檔分類方法及裝置有效
| 申請號: | 201911295117.6 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111177375B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 楊寶山;強晟 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/2411;G06F18/22;G06F40/284;G16H10/60 |
| 代理公司: | 北京嘉科知識產權代理事務所(特殊普通合伙) 11687 | 代理人: | 劉力 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 文檔 分類 方法 裝置 | ||
1.一種電子文檔分類方法,其特征在于,包括:
對待分類電子文檔進行分詞,以獲取待提取特征;
根據特征提取模型對所述待提取特征進行匹配,以獲取所述待分類電子文檔對應的特征向量;其中,所述特征提取模型中包括至少一個文檔類型以及所述文檔類型對應的特征集合向量,所述特征提取模型是根據預設文檔知識構建的,所述預設文檔知識包括文檔對應的模板和/或關鍵詞分布規律;
采用機器學習分類算法對所述特征向量進行處理,以對所述特征向量對應的待分類電子文檔進行分類;
所述根據特征提取模型對所述待提取特征進行匹配,以獲取所述待分類電子文檔對應的特征向量,包括:
將所述待分類電子文檔對應的待提取特征與特征提取模型中的特征集合向量進行匹配;
若所述待提取特征與所述特征集合向量中一分量匹配,則所述待提取特征對應的特征向量中,該分量對應的分量值為第一預設值;
若所述待提取特征與所述特征集合向量中分量均不匹配,則所述待提取特征對應的特征向量中,該分量對應的分量值為第二預設值。
2.如權利要求1所述的電子文檔分類方法,其特征在于,所述對待分類電子文檔進行分詞,以獲取待提取特征包括:
根據分詞算法對待分類電子文檔進行分詞,以獲取待提取特征,其中,所述分詞算法包括基于語法和規則的分詞法、基于理解的分詞法以及基于統計的分詞法。
3.如權利要求1所述的電子文檔分類方法,其特征在于,所述采用機器學習分類算法對所述特征向量進行處理,以對所述特征向量對應的待分類電子文檔進行分類,包括:
將所述待分類電子文檔對應的特征向量輸入文檔分類模型,以獲得所述待分類電子文檔屬于各文檔類型的概率;其中,文檔分類模型是根據電子文檔的文檔類型構建的,所述文檔分類模型包括至少一個分類回歸樹,每個所述文檔類型對應一個所述分類回歸樹;
根據所述待分類電子文檔屬于各文檔類型的概率,確定所述待分類電子文檔的文檔類型。
4.如權利要求3所述的電子文檔分類方法,其特征在于,構建所述文檔分類模型的方式,包括:
構建初始分類回歸樹,每個所述初始分類回歸樹對應電子文檔的一個文檔類型;
采用預設特征向量對所述初始分類回歸樹進行訓練,以獲得所述預設特征向量屬于各文檔類型的概率;
根據所述預設特征向量屬于各文檔類型的概率,獲取所述預設特征向量對應各文檔類型的殘差;
判斷所述殘差是否滿足預設條件;
若所述殘差滿足預設條件,則確定所述初始分類回歸樹為分類回歸樹,以構建所述文檔分類模型;
若所述殘差不滿足預設條件,則返回所述采用預設特征向量對所述初始分類回歸樹進行訓練步驟。
5.如權利要求4所述的電子文檔分類方法,其特征在于,所述采用預設特征向量對所述初始分類回歸樹進行訓練,以獲得所述預設特征向量屬于各文檔類型的概率,包括:
根據所述預設特征向量,選取所述預設特征向量中一分量作為所述初始分類回歸樹中的節點;
將各所述預設特征向量中與所述節點對應的分量的特征值作為所述節點的候選劃分點,并獲取損失值;
將滿足預設條件的所述損失值對應的特征值作為所述節點的劃分點,并獲取所述預設特征向量屬于各文檔類型的預測值;
根據所述預設特征向量屬于各文檔類型的預測值,獲取所述預設特征向量屬于各文檔類型的概率。
6.如權利要求1所述的電子文檔分類方法,其特征在于,所述采用機器學習分類算法對所述特征向量進行處理,以對所述特征向量對應的待分類電子文檔進行分類步驟后,還包括:
將經過分類的待分類電子文檔與預設文檔知識進行匹配;
若經過分類的待分類電子文檔與預設文檔知識的匹配程度滿足預設要求,則確定所述待分類電子文檔分類正確;
若經過分類的待分類電子文檔與預設文檔知識的匹配程度不滿足預設要求,則對所述待分類電子文檔進行校驗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911295117.6/1.html,轉載請聲明來源鉆瓜專利網。





