[發明專利]基于層級多任務學習的中文語法錯誤檢測方法及系統有效
| 申請號: | 202011254032.6 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112364631B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 崔超然;馬樂樂;申朕;宗鑒;賀甜甜;尹義龍 | 申請(專利權)人: | 山東財經大學;山東大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/237;G06F40/284;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 祖之強 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層級 任務 學習 中文 語法錯誤 檢測 方法 系統 | ||
1.一種基于層級多任務學習的中文語法錯誤檢測方法,其特征在于,包括以下步驟:
獲取中文文字序列數據,對獲取的數據進行預處理;
對獲取的中文文字序列進行預處理,具體為:
對中文文字序列進行字符級分詞;
建立輸入數據字典,對每一個字符給定唯一的索引;
對文文字序列進行標注,得到標簽;
建立標注信息字典,對每個標注對應唯一的索引;
對同一中文文字序列進行兩次標注,其中粗粒度標注不區分錯誤類型,細粒度標注區分錯誤類型;
對預處理后的數據進行向量表示;
以得到的向量表示為輸入,分別根據粗粒度神經網絡和細粒度神經網絡進行特征學習,得到特征表示,將兩個神經網絡得到的特征表示進行融合,得到融合后的特征表示;
所述粗粒度神經網絡將錯誤類型合并,不區分錯誤類型,細粒度神經網絡區分錯誤類型,且兩個神經網絡得到的特征表示具有一一對應關系;
融合之后的特征表示,經過非線性處理并映射到目標狀態個數空間上,每個字符以概率值最大對應的標注作為最終的預測結果。
2.如權利要求1所述的基于層級多任務學習的中文語法錯誤檢測方法,其特征在于,標注方法采用BIO標注,B代表錯誤位置的開始,I標注錯誤位置的剩余部分,O表示無錯誤。
3.如權利要求1所述的基于層級多任務學習的中文語法錯誤檢測方法,其特征在于,分別計算兩個網絡對應的損失以及融合后特征的損失,將三個損失加權融合,進行模型的反饋訓練。
4.如權利要求1所述的基于層級多任務學習的中文語法錯誤檢測方法,其特征在于,根據索引進行Embedding得到向量表示。
5.如權利要求1所述的基于層級多任務學習的中文語法錯誤檢測方法,其特征在于,融合后的特征表示為每個字符在所有狀態上的概率值,取最大值對應狀態作為其真實狀態,得到中文文字序列的最終預測結果。
6.一種基于層級多任務學習的中文語法錯誤檢測系統,包括以下步驟:
預處理模塊,被配置為:獲取中文文字序列數據,對獲取的數據進行預處理;
對獲取的中文文字序列進行預處理,具體為:
對中文文字序列進行字符級分詞;
建立輸入數據字典,對每一個字符給定唯一的索引;
對文文字序列進行標注,得到標簽;
建立標注信息字典,對每個標注對應唯一的索引;
對同一中文文字序列進行兩次標注,其中粗粒度標注不區分錯誤類型,細粒度標注區分錯誤類型;
向量表示模塊,被配置為:對預處理后的數據進行向量表示;
層級多任務學習模塊,被配置為:以得到的向量表示為輸入,分別根據粗粒度神經網絡和細粒度神經網絡進行特征學習,得到特征表示,將兩個神經網絡得到的特征表示進行融合,得到融合后的特征表示;
所述粗粒度神經網絡將錯誤類型合并,不區分錯誤類型,細粒度神經網絡區分錯誤類型,且兩個神經網絡得到的特征表示具有一一對應關系;
結果獲取模塊,被配置為:融合之后的特征表示,經過非線性處理并映射到目標狀態個數空間上,每個字符以概率值最大對應的標注作為最終的預測結果。
7.一種介質,其上存儲有程序,其特征在于,該程序被處理器執行時實現如權利要求1-5任一項所述的基于層級多任務學習的中文語法錯誤檢測方法中的步驟。
8.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-5任一項所述的基于層級多任務學習的中文語法錯誤檢測方法中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東財經大學;山東大學,未經山東財經大學;山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011254032.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有雨水收集功能的抗浮式消防泵站
- 下一篇:一種竹纖維彈性墊的制作方法





