[發明專利]一種數據處理方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110059430.0 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN114764557A | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 畢杰山;姜國強;黃華 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/289 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 電子設備 存儲 介質 | ||
1.一種數據處理方法,其特征在于,包括:
從目標數據中獲取待處理分詞;
依照所述待處理分詞的長度從一個以上編碼字典中確定所述待處理分詞所屬的目標編碼字典;
根據所述目標編碼字典確定所述待處理分詞對應的替換編碼;
在所述目標數據中采用所述替換編碼替換所述待處理分詞,得到所述目標數據對應的編碼數據;
對所述編碼數據進行壓縮處理,得到針對所述目標數據的壓縮結果。
2.根據權利要求1所述的方法,其特征在于,所述依照所述待處理分詞的長度從一個以上編碼字典中確定所述待處理分詞所屬的目標編碼字典之前,所述方法還包括:
獲取樣本數據,并對所述樣本數據進行分詞處理,得到所述樣本數據對應的樣本分詞;
根據所述樣本分詞的長度確定所述樣本分詞所屬的目標候選詞列表,所述目標候選詞列表包括:中頻詞候選詞列表或者長詞候選詞列表;
在所述目標候選詞列表中更新所述樣本分詞的詞頻信息,根據所述目標候選詞列表生成對應的編碼字典,所述對應的編碼字典包括一個以上的字典分詞;
依照字典編碼規則在所述對應的編碼字典中設置各字典分詞對應的替換編碼。
3.根據權利要求2所述的方法,其特征在于,所述一個以上編碼字典包括以下任一種或者多種:高頻詞字典、中頻詞字典和長詞字典,所述方法還包括:
若所述目標候選詞列表為所述中頻詞候選詞列表,則所述對應的編碼字典包括高頻詞字典和中頻詞字典,所述高頻詞字典包括一個以上的高頻詞,所述中頻詞字典包括一個以上的中頻詞;
若所述目標候選詞列表為所述長詞候選詞列表,則所述對應的編碼字典包括長詞字典,所述長詞字典包括一個以上的長詞。
4.根據權利要求2所述的方法,其特征在于,所述目標候選詞列表包括所述中頻候選詞列表,所述在所述目標候選詞列表中更新所述樣本分詞的詞頻信息,根據所述目標候選詞列表生成對應的編碼字典,包括:
獲取所述樣本數據對應的樣本序號;
若檢測到所述樣本序號小于目標閾值,則在所述目標候選詞列表中更新所述樣本分詞的詞頻信息;
若檢測到所述樣本序號等于目標閾值,則停止更新所述目標候選詞列表中所述樣本分詞的詞頻信息,并依照所述目標候選詞列表生成高頻詞字典和中頻詞字典。
5.根據權利要求4所述的方法,其特征在于,所述依照所述目標候選詞列表生成高頻詞字典和中頻詞字典,包括:
獲取所述目標候選詞列表中各樣本分詞的詞頻信息;
依照所述詞頻信息,將所述目標候選詞列表中詞頻滿足高頻詞條件的樣本分詞確定為高頻詞,并基于所述高頻詞生成高頻詞字典;
依照所述詞頻信息,將所述目標候選詞列表中除所述高頻詞以外,并且滿足中頻詞條件的樣本分詞確定為中頻詞,并基于所述中頻詞生成中頻詞字典。
6.根據權利要求2所述的方法,其特征在于,所述目標候選詞列表包括長詞候選詞列表,所述根據所述目標候選詞列表生成對應的編碼字典,包括:
獲取所述目標候選詞列表中各樣本分詞的詞頻信息;
依照所述詞頻信息,將所述目標候選詞列表中詞頻滿足長詞條件的樣本分詞確定為長詞;
依照所述長詞生成長詞字典。
7.根據權利要求2所述的方法,其特征在于,所述字典編碼規則用于指示:為高頻詞字典中的各高頻詞設置第一編碼位數的替換編碼,為中頻詞字典中的各中頻詞設置第二編碼位數的替換編碼,為長詞字典中的各長詞設置第三編碼位數的替換編碼,其中,所述第一編碼位數小于所述第二編碼位數,所述第二編碼位數小于所述第三編碼位數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110059430.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:量子點、量子點復合物及含其的發光裝置
- 下一篇:一種鼻部整形用支架





