[發明專利]基于深度神經網絡文本自動校對方法及裝置有效
| 申請號: | 201910873397.8 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN110489760B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 王璐;張健;汪元;韓偉;陳運文;紀達麒 | 申請(專利權)人: | 達觀數據有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/284;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 唐海力 |
| 地址: | 201203 上海市浦東新區中國(上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 文本 自動 校對 方法 裝置 | ||
本申請公開了一種基于深度神經網絡文本自動校對方法及裝置,方法通過獲取語料,并對語料進行分詞,得到若干第一詞組;根據每個第一詞組的易混淆詞,自動生成每個第一詞組的混淆集;獲取訓練集,并通過訓練集對N?gram模型進行訓練和對BiLSTM?CRF模型進行訓練;接收第一文本,并對第一文本進行預處理得到第二文本;通過訓練后的N?gram模型和BiLSTM?CRF模型以及混淆集對第二文本進行文本查錯和文本糾錯。達到了自動生成基于音似詞、形似詞和同義詞的混淆集的目的,從而實現了基于混淆集和BiLSTM?CRF模型的方法既引入上下文詞向量對目標詞進行校對,又通過混淆集對方法進行一些限制的效果;且結合N?gram模型和BiLSTM?CRF模型進行校對,比單一模型校對效果都好。
技術領域
本申請涉及文本識別及校對技術領域,具體而言,涉及一種基于深度神經網絡文本自動校對方法及裝置。
背景技術
文本校對指對文本進行查錯并提出修改建議,是出版工作的關鍵環節,在各個行業都有廣泛的應用。隨著信息技術和出版業電子化的迅速發展,文本校對的工作量大大增加。目前的文本校對工作大部分還采用人工校對的方法,校對工作強度大、成本高、效率低。同時,在如今信息爆炸的時代,媒體的時效性越來越重要,各家媒體都需要第一時間出稿,這對于人工校對的及時性、準確性、全面性是極大的挑戰,人工校對的方式已無法適應迅速增長的電子文本數量。
傳統的文本自動校對技術大多分為查錯和糾錯兩部分進行,常見的查錯方法有基于規則的方法、基于統計的方法和規則與統計相結合的方法,常見的糾錯方法則是結合混淆集和查錯模型開展。在申請號為201710947261.8的中國專利申請中,提供一種中文交互式問答文本中錯別字的識別和糾錯的方法及裝置,根據依存分析和上下鄰接詞共現概率建立局部錯誤模型和全局錯誤模型進行查錯,建立基于音近詞和形近詞的混淆集詞典,根據目標詞的混淆詞對目標詞進行改寫,比較改寫后的概率進行糾錯。基于傳統統計模型的方法主要依據局部上下文特征,沒有很好的利用詞與詞間的關系,當上下文共現組合在訓練集沒有出現時,是否錯誤無法判斷,同時糾錯依賴混淆集,當錯誤不屬于混淆集里的詞,錯誤就無法召回。
近兩年來,隨著相關數據集規模的逐漸增大以及深度學習技術的不斷成熟,開始出現了基于seq2seq模型的端到端文本校對。在申請號為201710618374.3的中國專利申請中,公開了一種基于循環神經網絡的seq2seq文本糾正方法。在該文本糾正系統中,先利用編碼規則確定待糾正文本對應的特征向量,再將特征向量輸入文本糾正模型通過解碼網絡輸出與待糾正文本對應的標準文本。該方法的編碼網絡和解碼網絡均為循環神經網絡,利用詞向量直接實現了一個端到端的文本糾正,涵蓋了查錯和糾錯兩部分,且不受混淆集的限制。但由于文本校對過程中完全通過上下文詞向量判斷,輸入輸出都是序列,可能會輸出一些語義奇怪且無法解釋的句子。比如對正確的句子“在與韓國隊的金牌爭奪戰中”,模型會輸出如“在與韓國隊的金牌金牌中”這種不符合語義的結果。所以該方法雖然引入了詞向量,但是由于端到端,不可控性較強。
此外,針對于中文文本翻譯還存在以下多個難點:
難點1中文語法表達多樣:
英文有比較嚴格的語法規則,規范時態、單復數等語言規則,所以對于英文文本,可以基于一些預先定義的規則來進行校對;但中文的語法特征比較少,語言表達比較隨意,往往需要大規模的語料庫學習,對模型學習能力也有更高的要求;
難點2要結合長短距離上下文詞判斷:
自動校對往往需要依據目標詞的上下文進行考察;但有時候發生錯誤的詞符合局部語言規則,但與全局語言規則發生沖突,所以需要考慮該詞與長距離的詞是否搭配進行判斷;
難點3現有的自動校對方法沒有很好的結合詞向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達觀數據有限公司,未經達觀數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910873397.8/2.html,轉載請聲明來源鉆瓜專利網。





