[發明專利]文本編碼方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202110033100.4 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112749530A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 陳文斌;王騰飛;魏幫國 | 申請(專利權)人: | 北京光速斑馬數據科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F16/35;G06F16/33;G06N3/04;G06N20/10 |
| 代理公司: | 北京天方智力知識產權代理事務所(普通合伙) 11719 | 代理人: | 賈耀梅 |
| 地址: | 100027 北京市朝陽區東直門*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 編碼 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種文本編碼方法,其特征在于,包括:
將目標文本進行規則匹配,若匹配成功,則生成所述目標文本的第一編碼結果,所述匹配成功是指從所述目標文本中匹配到至少一個預設關鍵詞和/或至少一個預設正則表達式;
利用至少兩個文本分類模型對所述目標文本進行分類,若所述至少兩個文本分類模型對所述目標文本進行分類的分類結果相同、且各分類結果的置信度大于預設閾值,則將所述目標文本的模型編碼結果作為第二編碼結果;
根據所述第一編碼結果與所述第二編碼結果,生成所述目標文本的最終編碼結果。
2.根據權利要求1所述的方法,其特征在于,所述將目標文本進行規則匹配之前,還包括:
獲取待編碼的初始文本;
去除所述初始文本中的停用詞和/或無意義的標點符號,得到目標文本。
3.根據權利要求2所述的方法,其特征在于,所述得到目標文本之前,還包括:
刪除所述初始文本中的慣用句。
4.根據權利要求1所述的方法,其特征在于,所述將目標文本進行規則匹配,包括:
將目標文本與碼框中的各個預設關鍵詞以及各個預設正則表達式進行規則匹配,其中,所述碼框用于將收集的大量文本語料轉化為數據的標準架構。
5.根據權利要求1-4任一項所述的方法,其特征在于,所述至少兩個文本分類模型,包括:
基于支持向量機SVM的tgrocery模型、基于神經網絡的長短時記憶網絡LSTM模型和fasttext模型中的至少兩個模型。
6.根據權利要求1-4任一項所述的方法,其特征在于,所述根據所述第一編碼結果與所述第二編碼結果,生成所述目標文本的最終編碼結果,包括:
若存在相同編碼結果和不同編碼結果,則將所述相同編碼結果和所述不同編碼結果,作為所述目標文本中的最終編碼結果;
其中,所述相同編碼結果為所述目標文本中的各個第一文本單元在所述第一編碼結果或所述第二編碼結果中的編碼結果,所述第一文本單位是指在所述第一編碼結果和所述第二編碼結果中具有相同編碼結果的文本單元;所述不同編碼結果為所述目標文本中的各個第二文本單元在所述第二編碼結果中的編碼結果,所述第二文本單位是指在所述第一編碼結果和所述第二編碼結果中具有不同編碼結果的文本單元。
7.根據權利要求6所述的方法,其特征在于,所述方法還包括:
若不存在所述相同編碼結果,則將所述第二編碼結果,作為所述目標文本中的最終編碼結果。
8.根據權利要求1-4任一項所述的方法,其特征在于,所述將目標文本進行規則匹配之后,還包括:
若匹配失敗,則將所述第二編碼結果,作為所述目標文本的最終編碼結果。
9.一種文本編碼裝置,其特征在于,包括:
第一編碼單元,用于將目標文本進行規則匹配,若匹配成功,則生成所述目標文本的第一編碼結果,所述匹配成功是指從所述目標文本中匹配到至少一個預設關鍵詞和/或至少一個預設關鍵表達式;
第二編碼單元,用于利用至少兩個文本分類模型對所述目標文本進行分類,若所述至少兩個文本分類模型對所述目標文本進行分類的分類結果相同、且各分類結果的置信度大于預設閾值,則將所述目標文本的模型編碼結果作為第二編碼結果;
第三編碼單元,用于根據所述第一編碼結果與所述第二編碼結果,生成所述目標文本的最終編碼結果。
10.一種電子設備,其特征在于,包括:處理器、存儲器;
所述存儲器,用于存儲計算機程序;
所述處理器,用于通過調用所述計算機程序,執行如權利要求1-8中任一項所述的文本編碼方法。
11.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-8任一項所述的文本編碼方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京光速斑馬數據科技有限公司,未經北京光速斑馬數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110033100.4/1.html,轉載請聲明來源鉆瓜專利網。





