[發明專利]一種基于LSTM的中文文本語法糾錯模型方法有效
| 申請號: | 201910168386.X | 申請日: | 2019-03-06 |
| 公開(公告)號: | CN109948152B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 段大高;趙振東;梁少虎;韓忠明 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 北京東方盛凡知識產權代理事務所(普通合伙) 11562 | 代理人: | 張雪 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lstm 中文 文本 語法 糾錯 模型 方法 | ||
1.一種基于LSTM的中文文本語法糾錯模型方法,其特征在于,該方法具體步驟如下:
步驟一:獲取大量文本語料庫;
步驟二:計算和保存5-gram語言模型:
語言模型負責評價計算一個句子的合理性,計算有n個詞的句子W=(w1,w2,…,wn)的合理性用如公式(1)所示:
P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…wn-1) (1)
P(w1,w2,…,wn)是指一個句子W的概率,通常用P(w1,w2,…,wn)的幾何平均做為困惑度(perplexity)指數,如公式(2)所示:
困惑度指數越小代表句子合理性越強,保存的語言模型將會用作數據處理過程和模型輸出的結果選擇;
步驟三:獲取較多的語法錯誤句子和糾正句子平行語料庫:
平行語料庫提供語法錯誤句子和人工糾正句子的訓練對;
步驟四:數據預處理:
對收集到的數據做進一步處理,用保存的5-gram語言模型修改掉原始句子的簡單拼寫錯誤,將句子看做單個漢字的序列,對每個漢字構造出一個相似候選集合,然后根據語言模型選擇候選集合中使得整個句子困惑度最小的候選字,這樣將原始句子中簡單的拼寫錯誤去除;
步驟五:構建網絡模型:
1)詞嵌入層,詞嵌入是將文本分詞后的詞匯進行向量化,本方法用公開的搜狗新聞預訓練的詞向量數據,每個詞匯的詞向量維度為300;
2)輸入層,輸入層將輸入的詞向量做線性變換然后做為LSTM神經網絡的輸入;
3)編碼器,編碼器負責將輸出的原始句子編碼為特征向量,用兩層的雙向LSTM實現,輸入的維度為128,輸出維度為256;
4)解碼器,解碼器將編碼器的輸出特征向量作為輸入,然后輸出修改后的句子,其中應用了注意機制,每輸出一個狀態的詞語都會和輸入數據做一次注意力計算;
5)輸出層,輸出層將輸出的向量映射到詞典維度的向量,并作為各個詞的采樣概率,采樣生成當前狀態的輸出詞;
步驟六:把準備好的數據輸入步驟五建立的神經網絡,計算損失,反向傳播,隨機梯度下降法迭代500次,訓練LSTM神經網絡,以多分類交叉熵為代價函數,最終得到收斂的算法模型;
步驟七:將待糾正的錯誤文本經過語言模型預處理,輸入LSTM神經網絡,得到輸出結果,實現對文本語法糾錯過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910168386.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:構建語音助手的方法
- 下一篇:一種涉及視頻和音頻多媒體信息處理的人機交流系統





