[發明專利]一種中文拼寫糾錯模型在審
| 申請號: | 202011549372.1 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112861517A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 申興發;趙慶彪;徐勝;李樹豐;劉立立 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/211;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 拼寫 糾錯 模型 | ||
本發明公開了一種中文拼寫糾錯模型。本發明是一個輸入步長和輸出步長一致的編解碼模型;將待糾錯的句子X={x1,x2,x3…xn},輸入到混淆字圖卷積神經網絡和依存句法關系圖卷積神經網絡中,輸出帶有混淆字和關系信息的上下文向量;并將該上下文向量輸入到編解碼模型中,得到糾正后的句子Y={y1,y2,y3…yn}。本發明充分考慮到字與字之間的上下文關系、依存句法關系和混淆字之間的關系,提出了一種新穎的中文拼寫糾錯模型。
技術領域
本發明涉及計算機自然語言處理領域,更具體的說涉及一種端到端的中文拼寫糾錯模型。
背景技術
中文拼寫糾錯是一種文本糾錯,應用于中文輸入法、搜索引擎、聊天機器人、語音助手等智能領域,有很好的應用前景。它幫助漢語學習者更好的理解句子含義,幫助搜索引擎更準確的匹配到主題內容,幫助聊天機器人更準確的獲得用戶需求并回復最相關的信息。現有的模型沒有充分考慮到字或詞向量的上下文、依存句法關系和混淆字之間的關系,對此,本文提出一種新穎的端到端的充分考慮到上下文信息、依存句法以及混淆字關系的中文拼寫糾錯模型。
發明內容
本發明的目的是提供一種中文拼寫糾錯模型。
本發明解決其技術問題所采用的技術方案如下:
本發明模型是一個輸入步長和輸出步長一致的編解碼模型。將待糾錯的句子X笰{x1,x2,x3…xn},輸入到混淆字圖卷積神經網絡(CoGcn)和依存句法關系圖卷積神經網絡(ReGcn)中,輸出帶有混淆字和依存句法關系信息的上下文向量。并將該上下文向量輸入到編解碼模型中,得到糾正后的句子Y笰{y1,y2,y3…yn}。
進一步,所述的混淆字圖卷積神經網絡具體實現如下:
將現有混淆集中的每一個字當作節點,字與字之間的關系當作邊,構造出鄰接矩陣A∈RN*N,N指的是混淆集的大小。如果A[i][i]與A[i][j]是字形相似或發音相似的混淆字,則A[i][j]=1,否則A[i][j]=0(0≤i,j≤n-1)。然后將鄰接矩陣A正則化。公式如下:
其中,I是單位矩陣,是的度矩陣;
通過混淆字圖卷積神經網絡,捕獲混淆字之間相似的信息,將混淆字映射到相同的向量空間。每一層的圖卷積公式如下:
其中,H∈RN*D,D是字向量的維度,它是隱藏層向量。用Bert預訓練的上下文字向量初始化H0。Wl∈RD*D,是可訓練的參數。為了保持原始語義,進行疊加操作,公式如下:
進一步,所述的依存句法關系圖卷積神經網絡:
用工具提取句子關系,對輸入句子的每個字生成關系向量,以每個字為節點,字與字之間的關系為邊,通過依存句法關系圖卷積神經網絡,提取任意兩個字之間的依存句法關系。
每一卷積層中每一個節點的圖卷積后提取的依存句法關系向量如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011549372.1/2.html,轉載請聲明來源鉆瓜專利網。





