[發明專利]一種基于字符序列的文本檢錯方法有效
| 申請號: | 201911263558.8 | 申請日: | 2019-12-11 |
| 公開(公告)號: | CN112949288B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 彭俊杰;胡淼;張換香;胡敬響;譚書華 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 葉敏華 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 字符 序列 文本 檢錯 方法 | ||
本發明涉及一種基于字符序列的文本檢錯方法,包括:S1、從問答系統的日志信息中提取出樣本語料;S2、基于樣本語料,構建領域詞表及各樣本文本對應的決策權重矩陣;S3、構建文本檢錯模型;S4、將多個樣本文本分別向量化處理后依次輸入文本檢錯模型,根據預設的迭代次數以及決策權重矩陣,以訓練文本檢錯模型;S5、獲取實際文本并構建對應的決策權重矩陣;S6、將實際文本向量化處理后輸入訓練好的文本檢錯模型,結合該實際文本對應的決策權重矩陣,得到該實際文本對應的檢錯結果。與現有技術相比,本發明通過構建對應于文本的決策權重矩陣,并將其與Bi?LSTM的隱藏輸出相結合,能夠有效突出錯誤字符特征,提高檢錯結果準確性。
技術領域
本發明涉及文本分析技術領域,尤其是涉及一種基于字符序列的問答文本檢錯方法。
背景技術
問答系統的快速發展為信息檢索系統注入了新的活力,不同于傳統的搜索引擎,它能用準確、簡潔的自然語言回答用戶用自然語言表達的問題。因此問答系統成為了目前各大廠商大力發展的新一代信息檢索工具,例如:面向醫療行業的智能問答系統,基于移動通訊領域的問答系統以及面向電商領域的智能問答系統等。盡管目前問答系統已經被廣泛應用于上述領域,但在實際中,用戶輸入文本往往會存在一些錯誤,如果問答系統不能識別文本中的錯誤,那么就很難正確地理解用戶的意圖并給出對應的答案。例如在物流行業,當用戶輸入“為什么我的建議直不發?”時,實際是將“件一”錯誤寫成了“建議”,此時文本表達的含義與原始的信息完全不同,為此需要能夠對輸入拼寫進行自動檢錯,以保證問答系統能夠準確地進行人機交互。
不同于英文文本的拼寫錯誤,中文的輸入不存在非詞錯誤,無法像英文那樣以字典匹配的方式進行錯誤查找,中文的輸入錯誤主要集中在同音字錯誤以及形近字錯誤,并且中文沒有詞邊界,即詞與詞之間沒有間隔符,在不同的語境下,同一個詞語的組合可能會導致正確與錯誤兩種相反的結果。例如:“快遞有快的嗎”和“我要寄快的”,前一個文本中的“快的”使用正確,而后一個文本中的“快的”卻是一個錯誤的組合。因此傳統的英文文本檢錯方法不適用中文的文本檢錯。中文的特殊性使得自然語言的自動檢錯工作更為困難。
目前常用的中文文本檢錯方法是基于概率統計的方法,包括:N元匹配檢錯算法,NMWS的檢錯算法以及基于混合系統的檢錯算法等。大量正確的語料是保證這些檢錯方法能夠準確檢查出錯誤字符的重要前提,一旦語料中存在錯誤,則這些錯誤就會被一直保留下去,并且在檢錯算法的處理過程中,用來判斷文本表述是否合理的閾值是一個難以確定的超參數,與此同時基于規則統計的方法將導致文本檢錯只能從局部進行,而無法考慮長距離依賴關系。
鑒于以上情況,一些研究者開始將深度學習中的序列模型運用到文本檢錯中,利用該類模型進行自動提取上下文特征,進而利用上下文信息來進行目標字符的正誤判斷。比較常見的模型有:RNN模型,Bi-LSTM模型,Bi-GRU模型等,然而,當文本數量比較小時,由于文本中錯誤字符與正確字符的類別分布不均衡,通常正確字符的數量要遠遠多于錯誤字符的數量,使得模型均很難學習到在語料庫中占小比例的錯誤字符的特征,無法準確地對目標字符進行正誤判斷,導致文本檢錯結果的準確率不高。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于字符序列的問答文本檢錯方法,利用Bi-LSTM神經網絡來提取文本中的上下文特征,通過構建決策權重矩陣,并將該權重矩陣與Bi-LSTM的隱藏輸出相結合,以突出錯誤字符特征,提高文本檢錯結果的準確率。
本發明的目的可以通過以下技術方案來實現:一種基于字符序列的文本檢錯方法,包括以下步驟:
S1、獲取問答系統的日志信息,并從日志信息中提取出樣本語料,其中,樣本語料包括多個樣本文本,樣本文本由字符序列組成;
S2、基于樣本語料,構建領域詞表,并根據領域詞表,構建各樣本文本對應的決策權重矩陣;
S3、構建文本檢錯模型,該文本檢錯模型包括依次連接的輸入層、嵌入層、Bi-LSTM層,全連接層以及輸出層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911263558.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種離合器從動盤總成
- 下一篇:一種牽引電機散熱防塵裝置





