[發明專利]文本處理方法及裝置在審
| 申請號: | 202011541438.2 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112632914A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 李俊杰;蔣偉偉;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 | ||
1.一種文本處理方法,其特征在于,包括:
獲取非標準文本,并確定所述非標準文本對應的非標準類別;
根據所述非標準類別,確定正則化模型的模型參數的更新值;
采用所述更新值對所述正則化模型的模型參數的值進行更新,并利用更新后的正則化模型對所述非標準文本進行處理,獲得至少一個向量;
根據所述至少一個向量,確定所述非標準文本對應的標準文本。
2.如權利要求1所述的方法,其特征在于,所述至少一個向量包括第一向量和至少一個第二向量,其中,一個第二向量對應所述標準文本中的一個字符位置,所述第二向量用于確定所述標準文本中所述字符位置的字符;
所述第一向量為所述更新后的正則化模型中編碼器輸出的向量,所述第二向量為所述更新后的正則化模型中解碼器輸出的向量。
3.如權利要求2所述的方法,其特征在于,所述根據所述至少一個向量,確定所述非標準文本對應的標準文本;
通過神經網絡中的線性層和softmax層對所述第二向量進行處理,得到所述第二向量對應的第三向量,所述第三向量用于表示所述第二向量對應的字符位置上的字符為預設詞表中各個預設字符的概率;
根據所述第一向量和所述第二向量,獲得所述第二向量對應的第四向量,所述第四向量用于表示所述非標準文本中所包含的字符對預測所述第二向量對應的字符位置上的字符的重要程度;
根據所述至少一個第二向量對應的至少一個第三向量和所述至少一個第二向量對應的至少一個第四向量,確定所述非標準文本對應的標準文本,其中,一個第二向量對應一個第三向量,一個第二向量對應一個第四向量。
4.如權利要求3所述的方法,其特征在于,所述根據所述至少一個第二向量對應的至少一個第三向量和所述至少一個第二向量對應的至少一個第四向量,確定所述非標準文本對應的標準文本,包括:
針對所述至少一個第二向量中的每個第二向量,獲取所述第二向量對應的權重值;
根據所述第二向量對應的第三向量、所述第二向量對應的第四向量以及所述第二向量對應的權重值,獲得所述第二向量對應的字符位置的最終字符;
根據所述至少一個第二向量中每個第二向量對應的最終字符,構建所述非標準文本對應的標準文本。
5.如權利要求4所述的方法,其特征在于,所述獲取所述第二向量對應的權重值,包括:
獲取所述非標準文本中包含的字符對應的特征向量;
根據所述特征向量和所述第二向量,獲得所述第二向量對應的權重值。
6.如權利要求5所述的方法,其特征在于,所述根據所述特征向量和所述第二向量,獲得所述第二向量對應的權重值,包括:
根據所述特征向量,獲得所述非標準文本對應的上下文向量;
根據所述上下文向量和所述第二向量,獲得所述第二向量對應的權重值。
7.如權利要求1-6任一項所述的方法,其特征在于,所述正則化模型為Transformer模型。
8.一種文本處理裝置,其特征在于,包括:
獲取單元,用于獲取非標準文本,并確定所述非標準文本對應的非標準類別;
第一確定單元,用于根據所述非標準類別,確定正則化模型的模型參數的更新值;
模型更新單元,用于采用所述更新值對所述正則化模型的模型參數的值進行更新,并利用更新后的正則化模型對所述非標準文本進行處理,獲得至少一個向量;
第二確定單元,用于根據所述至少一個向量,確定所述非標準文本對應的標準文本。
9.一種文本處理裝置,其特征在于,包括處理器、存儲器以及通信接口,所述處理器、存儲器和通信接口相互連接,其中,所述通信接口用于接收和發送數據,所述存儲器用于存儲程序代碼,所述處理器用于調用所述程序代碼,執行如權利要求1至7任一項所述的方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行以實現權利要求1至7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011541438.2/1.html,轉載請聲明來源鉆瓜專利網。





