[發明專利]一種基于字符序列的文本檢錯方法有效

申請號：	201911263558.8	申請日：	2019-12-11
公開（公告）號：	CN112949288B	公開（公告）日：	2022-11-11
發明（設計）人：	彭俊杰;胡淼;張換香;胡敬響;譚書華	申請（專利權）人：	上海大學
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/279;G06N3/04;G06N3/08
代理公司：	上海科盛知識產權代理有限公司 31225	代理人：	葉敏華
地址：	200444***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于字符序列文本檢錯方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于字符序列的文本檢錯方法，其特征在于，包括以下步驟：

S1、獲取問答系統的日志信息，并從日志信息中提取出樣本語料，其中，樣本語料包括多個樣本文本，樣本文本由字符序列組成；

S2、基于樣本語料，構建領域詞表，并根據領域詞表，構建各樣本文本對應的決策權重矩陣；

S3、構建文本檢錯模型，該文本檢錯模型包括依次連接的輸入層、嵌入層、Bi-LSTM層，全連接層以及輸出層；

S4、將多個樣本文本分別向量化處理后依次輸入文本檢錯模型，根據預設的迭代次數以及各樣本文本對應的決策權重矩陣，對文本檢錯模型進行訓練，以得到訓練好的文本檢錯模型；

S5、獲取實際文本，并根據領域詞表，構建該實際文本對應的決策權重矩陣；

S6、將實際文本向量化處理后輸入訓練好的文本檢錯模型，結合該實際文本對應的決策權重矩陣，得到該實際文本對應的檢錯結果，其中，檢錯結果具體為對應于實際文本字符序列的類別標簽序列。

2.根據權利要求1所述的一種基于字符序列的文本檢錯方法，其特征在于，所述步驟S1具體包括以下步驟：

S11、獲取問答系統的日志信息，從日志信息中篩選出由字符序列組成的多個樣本文本；

S12、依次對多個樣本文本的字符序列進行正確字符和錯誤字符的人工標注，得到各字符序列對應的人工標簽序列。

3.根據權利要求2所述的一種基于字符序列的文本檢錯方法，其特征在于，所述步驟S2具體包括以下步驟：

S21、對樣本語料中的多個樣本文本進行分詞處理，以得到領域詞表；

S22、根據領域詞表，以及文本中其余字符與目標字符的相對位置，首先將樣本文本的字符數量填充至與預設的文本字符數量相同，之后依次計算得到文本中其余字符對目標字符的影響權重，其中，若文本的字符數量小于預設的文本字符數量，則從該文本的最后一個字符開始依次填充0字符，直至該文本的字符數量與預設的文本字符數量相同，若文本的字符數量等于預設的文本字符數量，則無需對該文本進行0字符填充，預設的文本字符數量等于樣本語料中長度最長的樣本文本所包含的字符數量；

S23、將其余字符對目標字符的各影響權重分別平均化處理，之后按照字符序列的排列順序，將平均化處理后目標字符的各影響權重按順序排列組成該目標字符的決策權重向量；

S24、基于字符序列的排列順序，將各目標字符的決策權重向量按順序排列組成文本的決策權重矩陣。

4.根據權利要求3所述的一種基于字符序列的文本檢錯方法，其特征在于，所述步驟S22中計算文本中其余字符對各目標字符的影響權重的規則為：

若文本中其余字符與目標字符的相對位置越大，則其余字符對目標字符的影響權重越小；

若文本中其余字符與目標字符之間的片段存在于領域詞表中，則該其余字符對目標字符的影響權重隨著該其余字符與目標字符之間相對位置的增大而增大。

5.根據權利要求4所述的一種基于字符序列的文本檢錯方法，其特征在于，所述領域詞表具體為：

words_table＝(words₁,words₂,words₃,…words_m)

其中，words_table為領域詞表，words_m為領域詞表中第m個分詞，m是一個正整數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海大學，未經上海大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911263558.8/1.html，轉載請聲明來源鉆瓜專利網。