[發明專利]一種文件分類方法及裝置有效
| 申請號: | 201710138149.X | 申請日: | 2017-03-09 |
| 公開(公告)號: | CN106897454B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 趙毅強 | 申請(專利權)人: | 北京時間股份有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/583;G06F16/55;G06F16/35;G06K9/62 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉蘭蘭 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 分類 方法 裝置 | ||
1.一種文件分類方法,包括:
獲取文件中包含的圖片信息;
通過預設的圖片分類模型確定與所述圖片信息相對應的圖片分類結果;
根據所述圖片分類結果生成與所述文件相對應的文件特征向量;
通過預設的文件分類模型確定與所述文件特征向量相對應的文件分類結果;
其中,所述根據所述圖片分類結果生成與所述文件相對應的文件特征向量的步驟具體包括:
獲取所述文件中包含的文本信息,生成與所述文本信息相對應的文本特征向量;
生成與所述圖片分類結果相對應的圖片特征向量,將所述文本特征向量與所述圖片特征向量進行組合,根據組合結果生成所述文件特征向量;
其中,與所述圖片分類模型相對應的圖片分類總數為N,其中,N為大于2的自然數;所述確定與所述圖片信息相對應的圖片分類結果的步驟具體包括:分別確定該圖片信息屬于N個圖片分類中的各個圖片分類的概率,按照概率從高到低的順序篩選M個圖片分類作為該圖片信息的圖片分類結果,其中,M為小于N的自然數;
則所述生成與所述圖片分類結果相對應的圖片特征向量的步驟具體包括:預先為各種圖片分類結果分別設置對應的圖片分類編號;確定與該圖片信息的圖片分類結果相對應的圖片分類編號,根據所述圖片分類編號生成對應的圖片特征向量。
2.根據權利要求1所述的方法,其中,所述方法執行之前,進一步包括:
通過機器學習算法對預先獲取到的圖片訓練集進行機器學習,根據學習結果生成所述預設的圖片分類模型;其中,所述機器學習算法包括:深度學習算法、以及神經網絡算法。
3.根據權利要求1所述的方法,其中,所述生成與所述文本信息相對應的文本特征向量的步驟具體包括:
對所述文本信息進行預處理,根據預處理結果得到多個特征詞;
分別為各個特征詞賦予對應的權重,根據各個特征詞及其權重生成所述文本特征向量。
4.根據權利要求1-3任一所述的方法,其中,所述文件分類模型通過預設的機器學習算法確定,其中,所述機器學習算法包括:線性分類算法、神經網絡分類算法、以及深度學習算法。
5.根據權利要求1-3任一所述的方法,其中,所述獲取文件中包含的圖片信息的步驟具體包括:獲取文件中包含的動態圖片,提取所述動態圖片中包含的至少一個圖片幀,分別確定與各個圖片幀相對應的圖片信息。
6.一種文件分類裝置,包括:
獲取模塊,用于獲取文件中包含的圖片信息;
圖片分類模塊,用于通過預設的圖片分類模型確定與所述圖片信息相對應的圖片分類結果;
特征向量模塊,用于根據所述圖片分類結果生成與所述文件相對應的文件特征向量;
文件分類模塊,用于通過預設的文件分類模型確定與所述文件特征向量相對應的文件分類結果;
其中,所述特征向量模塊具體包括:
文本特征向量子模塊,用于獲取所述文件中包含的文本信息,生成與所述文本信息相對應的文本特征向量;
圖片特征向量子模塊,用于生成與所述圖片分類結果相對應的圖片特征向量;
組合子模塊,用于將所述文本特征向量與所述圖片特征向量進行組合,根據組合結果生成所述文件特征向量;
其中,與所述圖片分類模型相對應的圖片分類總數為N,其中,N為大于2的自然數;所述圖片分類模塊具體用于:分別確定該圖片信息屬于N個圖片分類中的各個圖片分類的概率,按照概率從高到低的順序篩選M個圖片分類作為該圖片信息的圖片分類結果,其中,M為小于N的自然數;
則所述圖片特征向量子模塊具體用于:預先為各種圖片分類結果分別設置對應的圖片分類編號;確定與該圖片信息的圖片分類結果相對應的圖片分類編號,根據所述圖片分類編號生成對應的圖片特征向量。
7.根據權利要求6所述的裝置,其中,進一步包括:
圖片分類模型構建模塊,用于通過機器學習算法對預先獲取到的圖片訓練集進行機器學習,根據學習結果生成所述預設的圖片分類模型;其中,所述機器學習算法包括:深度學習算法、以及神經網絡算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京時間股份有限公司,未經北京時間股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710138149.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:工程BIM進度模型與現場監控對比方法
- 下一篇:一種可配置統計分析的實現方法





