[發明專利]長文本的分類方法、終端及計算機存儲介質在審
| 申請號: | 202011223749.4 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112307208A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李志強 | 申請(專利權)人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王軍紅;張穎玲 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 終端 計算機 存儲 介質 | ||
本申請實施例公開了一種長文本的分類方法、終端及計算機存儲介質,所述方法包括:確定待分類文本中的標點符號,并基于標點符號獲得待分類文本對應的多個短文本;其中,多個短文本中的每兩個連續的文本存在重疊的字符;將多個短文本依次輸入至預設BERT模型中,輸出多個短文本對應的多個特征向量;根據多個特征向量生成待分類文本對應的目標向量;將目標向量輸入至全連接層,輸出待分類文本對應的分類結果。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種長文本的分類方法、終端及計算機存儲介質。
背景技術
基于多頭自注意力機制的雙向編碼語言模型(Bidirectional EncoderRepresentations from Transformers,BERT)的新語言表示模型,它代表Transformer的雙向編碼器表示。與常見的其他語言表示模型不同,BERT旨在通過聯合調節所有層中的上下文來預先訓練深度雙向表示。因此,預訓練的BERT表示可以通過一個額外的輸出層進行微調(fine-tuning),適用于廣泛任務的最先進模型的構建,比如問答任務和語言推理,無需針對具體任務做大幅架構修改。
目前,為了對BERT的計算量進行控制,需要限制輸入至BERT模型的文本長度,因此,在使用BERT模型進行長文本的分類時,會存在信息丟失的風險。也就是說,對于長文本的分類問題,往往無法利用BERT模型獲得滿意的分類結果。
發明內容
本申請實施例提供了一種長文本的分類方法、終端及計算機存儲介質,可以在解決BERT限制文本輸入長度的問題的同時,避免文本信息的丟失,大大提高分類處理的準確性。
本申請實施例的技術方案是這樣實現的:
第一方面,本申請實施例提供了一種長文本的分類方法,所述方法包括:
確定所述待分類文本中的標點符號,并基于所述標點符號獲得所述待分類文本對應的多個短文本;其中,所述多個短文本中的每兩個連續的文本存在重疊的字符;
將所述多個短文本依次輸入至預設BERT模型中,輸出所述多個短文本對應的多個特征向量;
根據所述多個特征向量生成所述待分類文本對應的目標向量;
將所述目標向量輸入至全連接層,輸出所述待分類文本對應的分類結果。
第二方面,本申請實施例提供了一種終端,所述終端包括:確定單元、獲取單元、輸入單元、輸出單元以及生成單元,
所述確定單元,用于確定所述待分類文本中的標點符號;
所述獲取單元,用于基于所述標點符號獲得所述待分類文本對應的多個短文本;其中,所述多個短文本中的每兩個連續的文本存在重疊的字符;
所述輸入單元,用于將所述多個短文本依次輸入至預設BERT模型中;
所述輸出單元,用于輸出所述多個短文本對應的多個特征向量;
所述生成單元,用于根據所述多個特征向量生成所述待分類文本對應的目標向量;
所述輸入單元,還用于將所述目標向量輸入至全連接層;
所述輸出單元,還用于輸出所述待分類文本對應的分類結果。
第三方面,本申請實施例提供了一種終端,所述終端包括處理器、存儲有所述處理器可執行指令的存儲器,當所述指令被所述處理器執行時,實現如上所述的長文本的分類方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有程序,所述程序被處理器執行時,實現如上所述的長文本的分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于OPPO廣東移動通信有限公司,未經OPPO廣東移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011223749.4/2.html,轉載請聲明來源鉆瓜專利網。





