[發明專利]一種實現跨領域的中文文本糾錯方法和系統在審
| 申請號: | 202110383985.0 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113076739A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 宋正博;肖龍源;李稀敏;李威 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289;G06N3/04 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 連耀忠;王婷婷 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 領域 中文 文本 糾錯 方法 系統 | ||
1.一種實現跨領域的中文文本糾錯方法,其特征在于,包括如下步驟:
采用序列標注的檢錯模型結合通用領域的監督數據訓練模型進行錯誤檢測;
通過編輯距離或者Jaccard距離在詞表的拼音庫中進行錯誤找回,獲得錯誤替換集合;
將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,根據計算的句子困惑度確定錯誤替換集合中正確的詞語,完成中文文本糾錯。
2.根據權利要求1所述的一種實現跨領域的中文文本糾錯方法,其特征在于,采用序列標注的檢錯模型結合通用領域的監督數據訓練模型進行錯誤檢測,所述序列標注的檢錯模型結合通用領域的監督數據訓練模型,具體為:
文本表示層,通過bert預訓練模型進行文本表示,文本表示為n*k的矩陣,其中n為句子的最大長度,k為詞向量維度;
Bi-LSTM層,通過長短期記憶網絡實現句子中每個字的輸出,并通過數學結構保持長距離的字的信息,Bi-LSTM層的輸出矩陣為n*2*h,其中h為文本表示層的維度;
CRF層,結合Bi-LSTM層的輸出,通過初始化轉移矩陣來計算每個句子出現的實體標簽的最佳路徑。
3.根據權利要求1所述的一種實現跨領域的中文文本糾錯方法,其特征在于,采用序列標注的檢錯模型結合通用領域的監督數據訓練模型進行錯誤檢測,所述序列標注的檢錯模型結合通用領域的監督數據訓練模型,具體為:
文本表示層,通過skip-gram或者cbow的方式嵌入文本,文本表示為n*k的矩陣,其中n為句子的最大長度,k為詞向量維度;
Bi-LSTM層,通過長短期記憶網絡實現句子中每個字的輸出,并通過數學結構保持長距離的字的信息,Bi-LSTM層的輸出矩陣為n*2*h,其中h為文本表示層的維度;
CRF層,結合Bi-LSTM層的輸出,通過初始化轉移矩陣來計算每個句子出現的實體標簽的最佳路徑。
4.根據權利要求1所述的一種實現跨領域的中文文本糾錯方法,其特征在于,在采用序列標注的檢錯模型結合通用領域的監督數據訓練模型進行錯誤檢測之前,還包括:
對文本進行特殊字符和表情符號的過濾,并構成字表,將每個句子中的字進行數字化;
將字符和實體標注對應的數據以batch的方式讀取,并tokenize每個句子,將[CLS]和[SEP]加在句子的首尾。
5.根據權利要求1所述的一種實現跨領域的中文文本糾錯方法,其特征在于,對文本進行特殊字符和表情符號的過濾,并構成字表,將每個句子中的字進行數字化,還包括:
將字符與標注的實體標簽處理為一一對應的形式,采用分詞處理拼音詞典。
6.根據權利要求1所述的一種實現跨領域的中文文本糾錯方法,其特征在于,將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,其中所述rnnlm語言模型具體為:
表示層,將字+詞合起來表征句子,并用word2vec進行向量化;
RNN層,包括循環神經網絡,將文本進行序列建模,每一個隱藏層輸出都取決于當前的輸入和前一時刻的輸出,學習到句子的表述順序;
輸出層,接入線性變化的一個激活函數,得到每個句子的損失值。
7.根據權利要求5所述的一種實現跨領域的中文文本糾錯方法,其特征在于,所述困惑度的計算具體為:
其中,S表示為句子,w表示字,i表示句子中字的序號,i=1,2....N,N表示句子中字的個數。
8.一種實現跨領域的中文文本糾錯系統,其特征在于,包括:
錯誤檢測模塊:采用序列標注的檢錯模型結合通用領域的監督數據訓練模型進行錯誤檢測;
錯誤召回模塊:通過編輯距離或者Jaccard距離在詞表的拼音庫中進行錯誤召回,獲得錯誤替換集合;
糾錯排序模塊:將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,根據計算的句子困惑度確定錯誤替換集合中正確的詞語,完成中文文本糾錯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110383985.0/1.html,轉載請聲明來源鉆瓜專利網。





