[發明專利]基于深度神經網絡文本自動校對方法及裝置有效
| 申請號: | 201910873397.8 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN110489760B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 王璐;張健;汪元;韓偉;陳運文;紀達麒 | 申請(專利權)人: | 達觀數據有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/284;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 唐海力 |
| 地址: | 201203 上海市浦東新區中國(上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 文本 自動 校對 方法 裝置 | ||
1.一種基于深度神經網絡文本自動校對方法,其特征在于,包括:
獲取語料,并對所述語料進行分詞,得到若干第一詞組;
根據每個所述第一詞組的易混淆詞,自動生成每個所述第一詞組的混淆集;其中,所述混淆集中包括一個或多個所述易混淆詞;
獲取訓練集,并通過所述訓練集對N-gram模型進行訓練和對BiLSTM-CRF模型進行訓練;
接收第一文本,并對所述第一文本進行預處理得到第二文本;
通過訓練后的所述N-gram模型和BiLSTM-CRF模型以及所述混淆集對所述第二文本進行文本查錯和文本糾錯;
通過所述訓練集對N-gram模型進行訓練,包括:
統計每個所述第一詞組的上鄰接二元概率以及下鄰接二元概率,并記wi-1為詞組wi的上鄰接詞組,wi+1為所述詞組wi的下鄰接詞組;
上鄰接二元概率PL(wi|wi-1)計算方法如下所述:
下鄰接二元概率PR(wi|wi-1)計算方法如下所述:
其中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分別為wi-1wi,wi-1,wiwi+1,wi+1的出現頻次;
將所述上鄰接二元概率PL(wi|wi-1)和所述下鄰接二元概率PR(wi|wi-1)加權組合得到二元概率為:
P(wi|wi-1,wi+1)=λ1PL(wi|wi-1)+(1-λ1)PR(wi|wi-1);
其中,λ1是調節上下鄰接二元概率重要性的參數;
所述對BiLSTM-CRF模型進行訓練,包括:
將所述訓練集中的語句進行拆分,得到分詞后的文本;所述文本中包括語句中的所有第二詞組,并按序排列;
通過詞向量以及詞性特征,確定所述語句中所有第二詞組的結構聯系,并輸出由所述詞向量和詞性特征拼接而成的向量特征;
通過BiLSTM將所述向量特征按順序序列和逆序序列分別得到順序隱藏狀態和逆序隱藏狀態,以分別捕獲前文和后文的信息;然后將所述順序隱藏狀態和逆序隱藏狀態相互連接并作為最終輸出;
根據連接后的所述順序隱藏狀態和逆序隱藏狀態確定每個所述第二詞組標記為正確時概率和標記為錯誤時概率,并輸入CRF模型;
通過所述CRF模型對每個所述第二詞組標注的概率進行優化處理,獲得最優的全局標注序列,并輸出每個所述第二詞組的標記以及置信概率;
所述對所述第一文本進行預處理,包括:
對所述第一文本進行分詞,得到由多個第三詞組按序排列的第一文本;
再對分詞后的所述第一文本中的第三詞組進行替換并得到由第四詞組構成的所述第二文本;其中,所述替換包括:實體替換、數字替換和標點替換;所述實體替換指的是對文本中的詞組進行實體標注,并對文本中的人名詞、地名詞和日期詞分別采用一個固定人名詞、地名詞和日期詞來替換;對所述數字替換是將所有的0-9數字替換為一個,同時將多位小數點只保留一位;所述標點替換是將句子結束詞替換為統一的標點符號;
所述第二文本進行文本查錯,包括:
通過N-gram模型對所述第二文本中每個句子的每個所述第四詞組進行判斷,并計算每個所述第四詞組的二元概率;
當所述二元概率小于第一閾值時,判斷該第四詞組是錯誤詞;并保留所述N-gram模型判斷為錯誤詞,以及二元概率為0的詞組的位置和二元概率為0的詞組的二元概率;
在所述BiLSTM-CRF模型中輸入所述第二文本中的句子進行分詞后的每個第四詞組和所述第四詞組詞性標注的結果,并輸出每個所述第四詞組標注為正確詞的置信概率;
對所述第二文本進行文本糾錯,包括:
在所述第二文本中存在二元概率為0的目標詞時,對所述目標詞對應的所述混淆集中的易混淆詞一一替換,并計算得到二元概率最高的易混淆詞作為所述目標詞的第一候選詞;其中,所述目標詞為通過所述N-gram模型進行二元概率的所述第四詞組;
在所述第一候選詞的二元概率也為0的時候,通過所述BiLSTM-CRF模型進行糾錯判斷;反之,通過N-gram模型進行糾錯判斷;
當所述第二文本中存在N-gram模型判斷得到的錯誤詞時,對所述錯誤詞對應的所述混淆集中的易混淆詞一一替換,并計算得到二元概率最高的易混淆詞作為所述錯誤詞的第二候選詞;
如果所述第二候選詞的二元概率不為0,通過BiLSTM-CRF模型進行糾錯判斷;反之,通過N-gram模型進行糾錯判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達觀數據有限公司,未經達觀數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910873397.8/1.html,轉載請聲明來源鉆瓜專利網。





