[發(fā)明專利]文本順滑處理方法、裝置、電子設備及存儲介質在審
| 申請?zhí)枺?/td> | 202310217943.9 | 申請日: | 2023-03-03 |
| 公開(公告)號: | CN116628191A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設計)人: | 李浩斌;劉航;王培英 | 申請(專利權)人: | 京東科技信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 劉亞平 |
| 地址: | 100176 北京市大興區(qū)北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本順滑處理方法,其特征在于,所述文本順滑處理方法包括:
獲取待順滑處理文本;
將所述待順滑處理文本輸入至文本順滑模型,得到所述文本順滑模型輸出的帶有文字不流暢標簽的待順滑處理文本;
對所述帶有文字不流暢標簽的待順滑處理文本進行順滑處理,得到順滑文本;
其中,所述文本順滑模型包括編碼器、文字標簽分類器和語句流暢分類器,所述文字標簽分類器和所述語句流暢分類器共用所述編碼器,所述文本順滑模型通過預訓練得到。
2.根據權利要求1所述的文本順滑處理方法,其特征在于,所述文本順滑模型采用以下方式預訓練得到:
獲取第一訓練樣本集和第二訓練樣本集;
將所述第一訓練樣本集中的第一訓練樣本輸入至所述文本順滑模型,并基于所述編碼器得到所述第一訓練樣本的第一語義表示;
將所述第二訓練樣本集中的第二訓練樣本輸入至所述文本順滑模型,并基于所述編碼器得到所述第二訓練樣本的第二語義表示和所述第二訓練樣本中各個字的單字語義表示;
將所述第一語義表示輸入至所述語句流暢分類器,得到所述語句流暢分類器輸出的語句流暢分類結果,其中,所述語句流暢分類結果包括語句不流暢結果和語句流暢結果;
將所述單字語義表示輸入至所述文字標簽分類器,得到所述文字標簽分類器輸出的文字標簽分類結果,其中,所述文字標簽分類結果包括文字不流暢標簽結果和文字流暢標簽結果;
基于所述文字標簽分類結果和所述第二訓練樣本,構建與所述第二訓練樣本對應的順滑后訓練樣本;
將所述順滑后訓練樣本輸入至所述編碼器,得到所述順滑后訓練樣本的第三語義表示,并基于所述第二語義表示和所述第三語義表示得到損失函數;
基于所述損失函數對所述文本順滑模型進行多輪次訓練,直至所述損失函數的值小于或等于損失閾值。
3.根據權利要求2所述的文本順滑處理方法,其特征在于,所述基于所述文字標簽分類結果和所述第二訓練樣本,構建與所述第二訓練樣本對應的順滑后訓練樣本,具體包括:
基于所述文字標簽分類結果,確定所述第二訓練樣本中的不流暢文字;
將所述第二訓練樣本中的所述不流暢文字進行刪除,得到與所述第二訓練樣本對應的順滑后訓練樣本。
4.根據權利要求2所述的文本順滑處理方法,其特征在于,基于所述第二語義表示和所述第三語義表示得到損失函數,具體包括:
基于所述第二語義表示和所述第三語義表示的均方誤差,得到所述損失函數。
5.根據權利要求2所述的文本順滑處理方法,其特征在于,所述第一訓練樣本的預設位置設置有第一占位符;
在所述基于所述編碼器得到所述第一訓練樣本的第一語義表示之后,所述方法還包括:
將所述第一語義表示標注至所述第一占位符;
所述將所述第一語義表示輸入至所述語句流暢分類器,得到所述語句流暢分類器輸出的語句流暢分類結果,具體包括:
由所述第一占位符處獲取所述第一語義表示,并將所述第一語義表示輸入至所述語句流暢分類器,得到所述語句流暢分類器輸出的語句流暢分類結果。
6.根據權利要求2或4所述的文本順滑處理方法,其特征在于,所述第二訓練樣本的預設位置設置有第二占位符,所述順滑后訓練樣本的預設位置設置有第三占位符;
在所述基于所述編碼器得到所述第二訓練樣本的第二語義表示之后,所述方法還包括:
將所述第二語義表示標注至所述第二占位符;
在所述得到所述順滑后訓練樣本的第三語義表示之后,所述方法還包括:
將所述第三語義表示標注至所述第三占位符;
所述基于所述第二語義表示和所述第三語義表示得到損失函數,具體包括:
由所述第二占位符處獲取所述第二語義表示,以及由所述第三占位符處獲取所述第三語義表示;
基于所述第二語義表示和所述第三語義表示得到損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技信息技術有限公司,未經京東科技信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310217943.9/1.html,轉載請聲明來源鉆瓜專利網。





