[發明專利]一種中文拼寫糾錯模型在審
| 申請號: | 202011549372.1 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112861517A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 申興發;趙慶彪;徐勝;李樹豐;劉立立 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/211;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 拼寫 糾錯 模型 | ||
1.一種中文拼寫糾錯模型,其特征在于該模型是一個輸入步長和輸出步長一致的編解碼模型;將待糾錯的句子X={x1,x2,x3...xn},輸入到混淆字圖卷積神經網絡和依存句法關系圖卷積神經網絡中,輸出帶有混淆字和依存句法關系信息的上下文向量;并將該上下文向量輸入到編解碼模型中,得到糾正后的句子Y={y1,y2,y3...yn}。
2.根據權利要求1所述的一種中文拼寫糾錯模型,其特征在于所述的混淆字圖卷積神經網絡具體實現如下:
將現有混淆集中的每一個字當作節點,字與字之間的關系當作邊,構造出鄰接矩陣A∈RN*N,N指的是混淆集的大小;如果A[i][i]與A[i][j]是字形相似或發音相似的混淆字,則A[i][j]=1,否則A[i][j]=0(0≤i,j≤n-1);然后將鄰接矩陣A正則化;公式如下:
其中,I是單位矩陣,是的度矩陣;
通過混淆字圖卷積神經網絡,捕獲混淆字之間相似的信息,將混淆字映射到相同的向量空間,每一層的圖卷積公式如下:
其中,H∈RN*D,D是字向量的維度,它是隱藏層向量;用Bert預訓練的上下文字向量初始化H0;Wl∈RD*D,是可訓練的參數;為了保持原始語義,進行疊加操作,公式如下:
3.根據權利要求2所述的一種中文拼寫糾錯模型,其特征在于所述的依存句法關系圖卷積神經網絡:
用工具提取句子關系,對輸入句子的每個字生成關系向量,以每個字為節點,字與字之間的關系為邊,通過依存句法關系圖卷積神經網絡,提取任意兩個字之間的依存句法關系;
每一卷積層中每一個節點的圖卷積后提取的依存句法關系向量如下:
其中l指的是第l層卷積層,i指的是當前節點,R是字與字之間的所有關系,是指與當前節點i具有關系r的所有節點,c是縮放因子,w0l是可訓練的參數,b是偏置參數,h∈R1*D,w∈RD*D,b∈R1*D,D是關系向量的維度;每個節點與其關系節點進行卷積操作,捕獲依存句法關系信息。
4.根據權利要求3所述的一種中文拼寫糾錯模型,其特征在于由于如果句子中的字不在混淆集中,就用Bert預訓練的上下文字向量表示;否則用混淆字圖神經網絡提取的混淆字向量表示;混淆字圖神經網絡輸出的是一個RN*D的矩陣,表示混淆集中第i個字的具有上下文信息和混淆字信息的向量;將混淆字圖卷積神經網絡提取的混淆字向量稱為hc,Bert預訓練的上下文向量成為hb,則:
依存句法關系圖卷積神經網絡的輸出是每一個字的依存句法關系向量將依存句法關系圖卷積神經網絡提取的依存句法關系向量稱為hr;將上下文向量hb或混淆字向量hc與依存句法關系向量hr融合在一起,將融合的向量輸送到編碼器;
所述編碼器是一個雙向的長短期記憶網絡;將編碼器在最終時間步的隱藏狀態作為解碼器的初始隱藏狀態;
解碼器是一個單向的LSTM循環神經網絡:
其中,在訓練階段是目標字的混合向量;在測試階段是前一個時間步推斷出的目標向量;通過注意力機制得到全局上下文向量其中αij是每一個時間步的隱藏狀態對應的權重;將每個時間步對應的全局上下文向量和解碼層的隱藏層向量串聯起來,并進行歸一化:
其中Wt∈RM*D,W是可學習的參數,M是Bert詞匯表的大??;損失函數是交叉熵損失函數,最終輸出糾正后的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011549372.1/1.html,轉載請聲明來源鉆瓜專利網。





