[發明專利]一種基于文本化詞向量的中文語法錯誤檢測方法有效
| 申請號: | 201810735068.2 | 申請日: | 2018-07-06 |
| 公開(公告)號: | CN108959260B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 李思;趙建博;李明正;徐雅靜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 循環神經網絡 語法錯誤檢測 文本矩陣 錯誤性 文本化 中文 詞語 前向神經網絡 信息處理領域 上下文信息 錯誤位置 語法檢測 向量化 再利用 掩碼 推斷 文本 重建 | ||
本發明公開了一種中文語法錯誤檢測方法及裝置,屬于信息處理領域。該方法的特征包括:先對輸入的文本詞語向量化,連接形成文本矩陣;再利用循環神經網絡形成關于詞向量中各分量重要程度的掩碼;重建文本矩陣;利用循環神經網絡提取上下文信息;利用前向神經網絡計算各個詞語錯誤性得分;使用錯誤性得分推斷錯誤位置。本發明通過結合基于文本化詞向量,使得中文語法檢測效果得到提升,具有很大的使用價值。
技術領域
本發明涉及信息處理領域,特別涉及一種基于神經網絡的中文語法錯誤檢測方法。
背景技術
中文語法錯誤檢測是中文自然語言處理中的比較新的任務,目的是判斷非中文母語的人所寫的語句是否有錯,并且給出錯誤信息。
目前最普遍的中文語法錯誤檢測方法是把錯誤檢測任務作為一個有監督的序列標注任務來完成。比較常見的語法錯誤檢測有N-Gram、循環神經網絡等。但是這些網絡都十分依賴人工設計的特征,需要比較多的人工特征的加入。最近,由于神經網絡可以自己學習文本的特征以代替復雜的人工特征,所以很多工作都在嘗試將神經網絡應用于中文語法錯誤檢測。但是大部分的工作沒有很好的利用中文詞匯所表達的信息,忽略了同一詞語在不同文本下意義可能會有所不同。而本發明為了解決上述的問題,采用了循環神經網絡得到詞向量中各分量重要程度的掩碼,再利用循環神經網絡,得到了較好的錯誤檢測效果。
發明內容
為了解決現有的技術問題,本發明提供了一種基于神經網絡的中文語法錯誤檢測方法。方案如下:
步驟一,我們將輸入文本的每個詞語都映射為詞向量,將文本參數化,將輸入的文本映射為一個文本矩陣。
步驟二,我們使用一個循環神經網絡對文本矩陣進行處理,得到關于詞向量分量在文本中重要程度的掩碼。
步驟三,對文本矩陣使用詞向量分量在文本中重要程度的掩碼進行處理,得到重建的詞向量表示的文本矩陣。
步驟四,我們將重建的詞向量表示的文本矩陣進行輸入循環神經網絡進行處理,得到文本中各個詞向量的特征表示。
步驟五,我們對文本中各個詞向量的特征表示進行處理,特征表示經過一個前向神經網絡得到各個詞語的錯誤性得分;
步驟六,在整個文本層面對各個詞語的錯誤性得分進行推斷,得到錯誤詞語信息。
附圖說明
圖1是本發明提供的中文語法錯誤檢測的網絡結構圖
圖2為長短期記憶網絡單元的內部結構圖
具體實施方式
接下來將對本發明的實施方案作更詳細的描述。
圖一是本發明提供的錯誤檢測方法的網絡結構圖,其中包括:
步驟S1:輸入的文本詞語向量化;
步驟S2:循環神經網絡形成關于詞向量中各分量重要程度的掩碼;
步驟S3:文本矩陣重建;
步驟S4:循環神經網絡提取上下文信息;
步驟S5:前向神經網絡計算各個詞語錯誤性得分;
步驟S6:使用錯誤性得分推斷錯誤位置;
下面將對每個步驟進行具體的說明:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810735068.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新詞發現方法及系統
- 下一篇:基于自然語言的試卷主觀題判題裝置及方法





