[發明專利]篇章糾錯方法、裝置、電子設備及存儲介質在審
| 申請號: | 202210732778.6 | 申請日: | 2022-06-24 |
| 公開(公告)號: | CN114970504A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 林雨;吳培昊;馬澤君 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/253;G06F40/289;G06F16/35;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 郭曼 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 篇章 糾錯 方法 裝置 電子設備 存儲 介質 | ||
1.一種篇章糾錯方法,其特征在于,包括:
接收待處理篇章數據,對所述待處理篇章數據進行斷句處理,得到按照篇章順序排列的多個待處理句子;
將所述多個待處理句子按照所述篇章順序確定對應的多個輸入量,將所述多個輸入量輸入至篇章糾錯模型中根據所述篇章順序進行糾錯處理,得到多個糾錯后的句子;
將所述多個糾錯后的句子進行整合得到糾錯后的篇章。
2.根據權利要求1所述的方法,其特征在于,所述將所述多個待處理句子按照所述篇章順序確定對應的多個輸入量,將所述多個輸入量輸入至所述篇章糾錯模型中進行糾錯處理,得到多個糾錯后的句子,包括:
根據預先設定的糾錯方向確定各個待處理句子對應的輸入量包括:[上句內容,下句內容,待處理句子內容];
利用所述篇章糾錯模型按照滾動修改策略對所述多個輸入量進行糾錯處理得到多個糾錯后的句子。
3.根據權利要求1或2所述的方法,其特征在于,將所述多個糾錯后的句子進行整合得到糾錯后的篇章,包括:
響應于確定所述多個待處理句子全部糾錯處理完成,將所述篇章糾錯模型轉化為初始糾錯模型;
利用所述初始糾錯模型對所述多個糾錯后的句子分別進行語法糾錯處理,得到多個詞語糾錯后的句子;
將所述多個詞語糾錯后的句子進行整合得到糾錯后的篇章。
4.根據權利要求1所述的方法,其特征在于,所述篇章糾錯模型的獲得過程包括:
對獲得的初始糾錯模型的參數進行調整得到初始篇章糾錯模型,其中,所述初始篇章糾錯模型能夠基于篇章中句子的上下句進行糾錯處理;
獲取多個篇章數據,對每個篇章數據標注相應的糾錯結果,得到多個篇章糾錯樣本作為篇章糾錯樣本集;
將所述篇章糾錯樣本集輸入至所述初始糾錯模型中并基于標注的糾錯結果進行訓練處理,得到篇章糾錯模型。
5.根據權利要求4所述的方法,其特征在于,對獲得的初始糾錯模型的參數進行調整得到初始篇章糾錯模型,包括:
對獲得的所述初始糾錯模型的輸入量和/或輸出量進行調整,得到上下文糾錯模型;
對所述上下文糾錯模型的糾錯方向進行調整得到所述初始篇章糾錯模型。
6.根據權利要求5所述的方法,其特征在于,所述對獲得的所述初始糾錯模型的輸入量和/或輸出量進行調整,得到上下文糾錯模型,包括:
響應于確定獲得的所述初始糾錯模型為生成式初始糾錯模型,其中,所述生成式初始糾錯模型的輸入側設有編碼器;
將所述生成式初始糾錯模型中編碼器的輸入量進行修改,得到修改后的輸入量包括:[上句內容,下句內容,當前句子內容],得到上下文糾錯模型。
7.根據權利要求5所述的方法,其特征在于,所述對獲得的所述初始糾錯模型的輸入量和/或輸出量進行調整,得到上下文糾錯模型,包括:
響應于確定獲得的所述初始糾錯模型為判別式初始糾錯模型;
將所述判別式初始糾錯模型的輸入量進行修改,得到修改后的輸入量包括:[上句內容,下句內容,當前句子內容];
將所述判別式初始糾錯模型中所述當前句子內容對應的輸出層與所述判別式初始糾錯模型的輸出側相接,以供所述當前句子內容對應的輸出層將輸出結果作為輸出量從所述輸出側輸出,得到上下文糾錯模型。
8.根據權利要求6或7任一項所述的方法,其特征在于,所述對獲得的所述初始糾錯模型的輸入量和/或輸出量進行調整,得到上下文糾錯模型,包括:
預先設定初始糾錯模型的輸入量的各項參數,包括:上句內容長度、下句內容長度和當前句子內容的鄰句重疊參數;
根據所述上句內容長度對輸入量中的上句內容進行調整,根據所述下句內容長度對輸入量中的下句內容進行調整,根據當前句子內容的鄰句重疊參數對輸入量中的當前句子內容進行調整,得到上下文糾錯模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210732778.6/1.html,轉載請聲明來源鉆瓜專利網。





