[發明專利]文本糾錯方法、裝置、終端設備及計算機存儲介質在審
| 申請號: | 202010110410.7 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113297833A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 姚林霞;孟函可;祝官文 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/126;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 張瑞志 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 終端設備 計算機 存儲 介質 | ||
本申請適用于人工智能技術領域,提供了一種文本糾錯方法、裝置、終端設備及計算機存儲介質。在本申請的文本糾錯方法中,編碼器?解碼器模型中的解碼器在進行解碼之前,需要先使用糾錯判定模型對各個輸入詞向量進行標簽分類,得到各個輸入詞向量的糾錯標簽。上述糾錯標簽用于指示對應的詞是否需要進行糾錯。終端設備在得到輸入文本中各個輸入詞向量對應的糾錯標簽之后,將各個輸入詞向量對應的糾錯標簽輸入至上述解碼器中,使解碼器可以根據各個輸入詞向量對應的糾錯標簽進行針對性的解碼,調控解碼過程,從而減少解碼器的誤判情況,提高文本糾錯的準確性,解決了當前的編碼器?解碼器模型的解碼過程不可控,容易產生誤判情況的問題。
技術領域
本申請屬于人工智能技術領域,尤其涉及一種文本糾錯方法、裝置、終端設備及計算機存儲介質。
背景技術
在當前的文本處理領域中,通常使用編碼器-解碼器模型實現文本糾錯、文本翻譯、文檔摘取、問答系統等文本處理功能。
在編碼器-解碼器模型中,設置有編碼器和解碼器。在進行文本糾錯時,用戶可以將需要糾錯的文本輸入編碼器-解碼器模型的編碼器中,編碼器將用戶輸入的文本轉化成語義向量,然后編碼器將語義向量傳遞至編碼器-解碼器模型的解碼器中,由解碼器對語義向量進行解碼,得到糾錯后的文本并輸出給用戶。
但是,在當前的編碼器-解碼器模型中,模型的解碼過程是不可控的,容易產生誤判的情況,可能會將部分正確詞語誤判為錯誤詞語進行糾錯,或者將部分錯誤詞語誤判為正確詞語不進行糾錯。
發明內容
本申請實施例提供了一種文本糾錯方法、裝置、終端設備及計算機存儲介質,可以解決當前的編碼器-解碼器模型的解碼過程是不可控,容易產生誤判情況的問題。
本申請實施例的第一方面提供了一種文本糾錯方法,包括:
終端設備對輸入文本進行詞向量轉換,得到所述輸入文本對應的詞向量序列,其中,所述詞向量序列包括所述輸入文本中各個詞對應的輸入詞向量;
所述終端設備將所述詞向量序列輸入編碼器-解碼器模型的編碼器中,得到語義向量;
所述終端設備將所述詞向量序列輸入糾錯判定模型中,得到各個輸入詞向量對應的糾錯標簽;
所述終端設備將所述詞向量序列、所述語義向量以及所述各個輸入詞向量對應的糾錯標簽輸入所述編碼器-解碼器模型的解碼器中,得到糾錯后的文本。
需要說明的是,在解碼器解碼之前,終端設備先將詞向量序列輸入糾錯判定模型進行糾錯判定,得到輸入文本中各個詞對應的糾錯標簽。糾錯標簽用于指示輸入文本中的各個詞是否需要進行糾錯。
在解碼的過程中,解碼器可以根據輸入文本中各個詞的糾錯標簽進行針對性解碼,調控解碼過程,從而減少解碼器的誤判情況,提高文本糾錯的準確性。
在第一方面的一種可能的實現方式中,所述終端設備將所述詞向量序列、所述語義向量以及所述各個輸入詞向量對應的糾錯標簽輸入所述編碼器-解碼器模型的解碼器中,得到糾錯后的文本包括:
所述終端設備將所述詞向量序列中的輸入詞向量依次輸入至所述編碼器-解碼器模型的解碼器中;
在每一次將所述輸入詞向量輸入所述解碼器后,所述終端設備根據所述輸入詞向量以及所述輸入詞向量對應的第二隱藏層向量,計算所述輸入詞向量對應的注意力向量以及下一個輸入詞向量對應的第二隱藏層向量,其中,所述第二隱藏層向量為所述解碼器的隱藏層向量,所述語義向量為第一個輸入詞向量對應的第二隱藏層向量;
若所述輸入詞向量對應的糾錯標簽為第一標簽,則所述終端設備控制所述解碼器將所述輸入詞向量對應的詞作為所述輸入詞向量對應的解碼詞,其中,所述糾錯標簽包括第一標簽和第二標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010110410.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車間數據采集RFID中間件系統
- 下一篇:軟件資源共享方法及系統





