[發明專利]一種融合成分句法信息的語法錯誤校正方法在審
| 申請號: | 202310326309.9 | 申請日: | 2023-03-30 |
| 公開(公告)號: | CN116341527A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 陳晨;何博;袁曉潔 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/211;G06N3/045;G06N3/0455;G06N3/0499;G06N3/048;G06N3/08 |
| 代理公司: | 天津耀達律師事務所 12223 | 代理人: | 邵洪軍 |
| 地址: | 300350 天津*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 成分 句法 信息 語法錯誤 校正 方法 | ||
一種融合成分句法信息的語法錯誤校正方法,屬于人工智能技術領域。包括:基于給定語句抽取成分句法信息,將含有錯誤的語句、對應正確的語句以及成分句法信息作為輸入數據,構建融合成分句法信息的多任務語法錯誤校正模型,對包含錯誤的語句進行校正。本方法首先基于語法分析的方法,抽取語句的成分句法信息,將語句的成分句法樹序列化得到成分句法序列,并構建三元元組對作為輸入數據。其次,引入適配器模塊,構建一個基于多任務學習的多頭注意力機制模型,學習錯誤語句和正確語句、錯誤語句和成分句法序列之間的潛在關系。最后,通過預訓練和輕量化微調適配器模塊,將錯誤語句、正確語句、成分句法序列的特征進行融合,完成語法錯誤校正。
技術領域
本發明屬于人工智能技術領域,具體涉及自然語言處理,特別是針對語法錯誤校正方法。
背景技術
語法錯誤校正任務是自動檢測和校正給定文本中包含的語法錯誤,如時態、介詞和錯別字詞,可應用于社交媒體平臺,以注參與者的內容是否有誤,并幫助避免錯誤信息的擴散。語法錯誤校正任務的輸入是一個可能包含語法錯誤的語句,其輸出是一個校正后沒有語法錯誤的句子。
在過去的幾年中,語法錯誤校正通常被視為機器翻譯問題,它將錯誤的句子視為源語言,將校正后的句子視為目標語言。這使得神經機器翻譯的序列到序列架構能夠被用于語法錯誤校正任務。目前,基于Transformer的序列對序列架構是語法錯誤校正模型的主流選擇。
然而,基于Transformer的序列到序列的語法錯誤校正方法仍然存在一些問題。首先,句法信息作為一個很強的先驗知識,可以幫助語法錯誤校正系統進行更好地校正錯誤語句,而現有方法僅僅把文本看作是一個由字詞組成的序列,忽略了句子中的句法信息。輸入的錯誤句子包含了錯誤的句法信息,故這些方法不能從句法信息中受益。其次,現有的方法模型參數量巨大,通常由數百萬甚至數十億的參數組成,這些模型在大量的自動合成數據上進行預訓練,在少量的人類標記數據上進行微調(即低資源)。在相對較低的資源(即人類標記的數據)上更新預訓練模型的所有參數的全面微調會影響預訓練-微調方法的性能和效率。
綜上所述,融合語法信息的語法錯誤校正是一項創新的研究問題,具有重要的研究意義和應用價值。
發明內容
本發明的目的是解決現有的語法錯誤校正方法中對先驗語法信息利用不足的問題,創新性的提出了一種融合成分句法信息的語法錯誤校正方法。本方法以深度神經網絡為框架,融合有助于分析語句的成分句法信息,并設計有效的模型結構和兩階段的訓練步驟,將成分句法信息融合到語句修改中,提高了語法錯誤校正的效果。
本發明的技術方案是:
一種融合成分句法信息的語法錯誤校正方法,該方法的詳細內容如下:
第1、獲取語法錯誤校正數據集
本方法獲取的數據包括人工標注數據和自動生成數據,數據中的每一個樣本包括一個有語法錯誤的句子和一個校正之后的句子,即(錯誤語句,正確語句)語句對。
第1.1、獲取人工標注數據
收集含有人工標注的語法錯誤校正數據集。數據集采用BEA-2019數據集,該數據集包括NUCLE數據集、Lang-8數據集、FCE數據集和WI+LOCNESS數據集。BEA-2019數據集中的每一個樣本包含了一個有語法錯誤的句子和由人工修改的校正之后的句子。
第1.2、獲取自動生成數據
獲取自動生成的語法錯誤校正數據集,收集One?BillionWord數據集。選取其中的一個子集進行樣本制作,對其中每個句子進行單詞的插入、刪除、修改、位置交換等操作來構建含有語法錯誤的語句,并稱操作后的語句為含有語法錯誤的語句,操作前的語句為校正后沒有語法錯誤的語句。
第2、生成成分句法序列
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310326309.9/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





