[發明專利]文檔分類預測方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011521171.0 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112699923A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 劉玉;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/951;G06F16/11;G06F16/35 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 分類 預測 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及分類模型技術領域,揭露了一種文檔分類預測方法、裝置、計算機設備及存儲介質。該方法通過接收包含目標文檔的預測請求指令;通過預設文檔解析模型對目標文檔進行文檔解析,得到與目標文檔對應的文字信息以及與文字信息對應的坐標信息;將文字信息以及坐標信息輸入至預設預訓練語言模型中,對文字信息以及坐標信息進行向量提取,得到與目標文檔對應的文檔表示向量;獲取樣本文檔向量集;所述樣本文檔向量集中包含至少一個樣本文檔向量;一個樣本文檔向量關聯一個文檔類別;確定文檔表示向量與各樣本文檔向量之間的文檔向量距離,并根據各文檔向量距離確定目標文檔對應的文檔類別。本發明提高了文檔分類的效率。
技術領域
本發明涉及分類模型技術領域,尤其涉及一種文檔分類預測方法、裝置、計算機設備及存儲介質。
背景技術
目前各個領域中均包括數以萬計的pdf文檔,例如在學術領域存在pdf 論文,在專業領域中存在pdf數據報告等。在越來越多pdf文檔產生過后,如何對這些pdf文檔進行有效分類并且對新文檔進行文檔類別預測是一種挑戰。
現有技術中的文檔分類模型一般都需要大量的標注數據進行訓練,才擁有較為可觀的分類精度,但是這些文檔分類模型容易受到數據不平衡的影響,例如某種類別的訓練數據很少,則模型在這個分類上的分類精度會較低,進而導致文檔分類準確率較低,并且人工標注數據需要花費大量的時間,不利于模型在各個領域中進行部署應用。
發明內容
本發明實施例提供一種文檔分類預測方法、裝置、計算機設備及存儲介質,以解決人工標注數據較少導致文檔分類準確率較低的問題。
一種文檔分類預測方法,包括:
接收包含目標文檔的預測請求指令;
通過預設文檔解析模型,對所述目標文檔進行文檔解析,得到與所述目標文檔對應的文字信息以及與所述文字信息對應的坐標信息;
將所述文字信息以及所述坐標信息輸入至預設預訓練語言模型中,對所述文字信息以及所述坐標信息進行向量提取,得到與所述目標文檔對應的文檔表示向量;
獲取樣本文檔向量集;所述樣本文檔向量集中包含至少一個樣本文檔向量;一個所述樣本文檔向量關聯一個文檔類別;
確定所述文檔表示向量與各所述樣本文檔向量之間的文檔向量距離,并根據各所述文檔向量距離確定所述目標文檔對應的文檔類別。
一種文檔分類預測裝置,包括:
預測請求指令接收模塊,用于接收包含目標文檔的預測請求指令;
文檔解析模塊,用于通過預設文檔解析模型,對所述目標文檔進行文檔解析,得到與所述目標文檔對應的文字信息以及與所述文字信息對應的坐標信息;
第一向量提取模塊,用于將所述文字信息以及所述坐標信息輸入至預設預訓練語言模型中,對所述文字信息以及所述坐標信息進行向量提取,得到與所述目標文檔對應的文檔表示向量;
文檔向量集獲取模塊,用于獲取樣本文檔向量集;所述樣本文檔向量集中包含至少一個樣本文檔向量;一個所述樣本文檔向量關聯一個文檔類別;
文檔類別確定模塊,用于確定所述文檔表示向量與各所述樣本文檔向量之間的文檔向量距離,并根據各所述文檔向量距離確定所述目標文檔對應的文檔類別。
一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述文檔分類預測方法。
一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述文檔分類預測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011521171.0/2.html,轉載請聲明來源鉆瓜專利網。





