[發明專利]長文本的分類方法、終端及計算機存儲介質在審
| 申請號: | 202011223749.4 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112307208A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李志強 | 申請(專利權)人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王軍紅;張穎玲 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 終端 計算機 存儲 介質 | ||
1.一種長文本的分類方法,其特征在于,所述方法包括:
確定所述待分類文本中的標點符號,并基于所述標點符號獲得所述待分類文本對應的多個短文本;其中,所述多個短文本中的每兩個連續的文本存在重疊的字符;
將所述多個短文本依次輸入至預設BERT模型中,輸出所述多個短文本對應的多個特征向量;
根據所述多個特征向量生成所述待分類文本對應的目標向量;
將所述目標向量輸入至全連接層,輸出所述待分類文本對應的分類結果。
2.根據權利要求1所述的方法,其特征在于,所述基于所述標點符號獲得所述待分類文本對應的多個短文本,包括:
按照所述標點符號對所述待分類文本進行分割處理,獲得分割后文本;
對所述分割后文本中的任意兩個連續文本進行組合處理,獲得所述多個短文本。
3.根據權利要求1或2所述的方法,其特征在于,所述確定所述待分類文本中的標點符號,并基于所述標點符號獲得所述待分類文本對應的多個短文本,包括:
識別所述待分類文本中的k個標點符號;其中,k為大于或者等于1的整數;
基于所述標點符號獲得所述待分類文本對應的m個短文本;其中,m為小于k的整數。
4.根據權利要求1所述的方法,其特征在于,所述將所述目標向量輸入至全連接層,輸出所述待分類文本對應的分類結果之前,所述方法還包括:
確定所述待分類文本對應的業務標簽數量;
根據所述業務標簽數量確定所述全連接層對應的節點數量。
5.根據權利要求1所述的方法,其特征在于,所述根據所述多個特征向量生成所述待分類文本對應的目標向量,包括:
對所述多個特征向量進行拼接處理,獲得所述目標向量;或者,
對所述多個特征向量進行相加處理,獲得所述目標向量。
6.根據權利要求1所述的方法,其特征在于,所述將所述多個短文本依次輸入至預設BERT模型中,輸出所述多個短文本對應的多個特征向量之后,所述方法還包括:
固定所述預設BERT模型的內部參數。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
所述待分類文本的字符數量大于或者等于預設數量閾值;其中,所述預設數量閾值用于對文本的長度進行限制。
8.根據權利要求1所述的方法,其特征在于,所述將所述多個短文本依次輸入至預設BERT模型中,輸出所述多個短文本對應的多個特征向量,包括:
確定所述多個短文本中的一個短文本對應的子向量、文本向量以及位置向量;
根據所述子向量、所述文本向量以及所述位置向量確定輸入向量;
將所述輸入向量輸入至所述預設BERT模型中,輸出所述一個短文本對應的特征向量;
遍歷所述多個短文本,獲得所述多個特征向量。
9.根據權利要求1所述的方法,其特征在于,所述將所述多個短文本依次輸入至預設BERT模型中,輸出所述多個短文本對應的多個特征向量之前,所述方法還包括:
訓練所述預設BERT模型。
10.根據權利要求8所述的方法,其特征在于,所述訓練所述預設BERT模型包括:
獲取原始語料;
按照字符對所述原始語料進行分割處理,獲得分割后語料;
基于所述原始語料構建句子對,其中,所述句子對包括正樣本和負樣本;
基于所述分割后語料連接所述句子對,獲得連接后句子對;
按照預設比例對所述連接后句子對進行遮掩處理,獲得訓練語料;
使用所述訓練語料對初始BERT模型進行訓練,獲得所述預設BERT模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于OPPO廣東移動通信有限公司,未經OPPO廣東移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011223749.4/1.html,轉載請聲明來源鉆瓜專利網。





