[發明專利]一種基于有限狀態轉換器的文本糾錯方法和裝置有效
| 申請號: | 202210292646.6 | 申請日: | 2022-03-24 |
| 公開(公告)號: | CN114398876B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 薛東偉 | 申請(專利權)人: | 北京沃豐時代數據科技有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/279;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 吳勇濤 |
| 地址: | 100160 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 有限 狀態 轉換器 文本 糾錯 方法 裝置 | ||
本發明涉及一種基于有限狀態轉換器的文本糾錯方法和裝置,包括:基于預存的音素表,確定待糾錯文本對應的FST;將所述待糾錯文本對應的FST與預存的糾錯模型進行復合,得到復合后的FST;搜索所述復合后的FST,得到待糾錯文本的糾錯結果;其中,所述糾錯模型為FST形式的模型,且所述糾錯模型是基于待糾錯文本所屬領域的專屬語料、分詞詞典和通用語料生成的。本發明提供的FST形式的糾錯模型,無需數據標注,訓練周期短,具備快速更新迭代的潛力,能夠適應不同用戶的定制化需求。在實際應用時,簡單地利用FST形式的糾錯模型即可實現快速、準確的文本糾錯。
技術領域
本發明涉及文本處理領域,尤其涉及一種基于有限狀態轉換器的文本糾錯方法和裝置。
背景技術
文本糾錯技術旨在自動將用戶輸入文本中拼寫、手寫等錯誤進行糾正,以提升輸入文本的正確性、可用性。文本糾錯技術的應用領域較為廣泛,如搜索引擎、智能聊天機器人、稿件編輯等。對于搜索引擎來講,用戶輸入關鍵字的準確性會極大程度的影響最終搜索結果的匹配率;對于客服機器人來講,正確的輸入文本為后續的語義分析、語義匹配提供了堅實的基礎;對于稿件編輯來講,文本自動糾錯減輕了稿件編輯者在錯別字矯正環節的勞動,極大的節約了人工成本。因此,作為自然語言處理中重要的一環,文本糾錯有著不可或缺的意義。
目前,學術界通常采用有監督的深度學習模型來實現文本糾錯,深度學習模型是通過將預先標注的文本糾錯數據輸入到設計好的深度神經網絡模型中不斷的進行迭代訓練得到的,其擬合、泛化能力均較為優秀。
但是,深度學習模型在訓練時都需要大量的樣本數據,這就需要投入很多的人力資源進行標注;另外訓練所需的時間周期也較長,這導致線上模型無法實現快速更新,不能滿足不同用戶頻繁的個性化需求。
發明內容
本發明的目的是提供一種基于有限狀態轉換器的文本糾錯方法和裝置,避開深度學習模型的訓練并設計全新的文本糾錯策略,以針對不同領域的用戶,進行高效化、定制化、個性化的文本糾錯。
第一個方面,本發明實施例提供一種基于有限狀態轉換器的文本糾錯方法,所述方法包括:
基于預存的音素表,確定待糾錯文本對應的FST;
將所述待糾錯文本對應的FST與預存的糾錯模型進行復合,得到復合后的FST;
搜索所述復合后的FST,得到待糾錯文本的糾錯結果;
其中,所述FST形式的糾錯模型為FST形式的模型,且所述糾錯模型是基于待糾錯文本所屬領域的專屬語料、分詞詞典和通用語料生成的。
根據本發明提供的基于有限狀態轉換器的文本糾錯方法,所述基于預存的音素表,確定待糾錯文本對應的FST,包括:
對待糾錯文本進行分詞,得到待糾錯文本對應的分詞序列;
根據所述音素表,將所述分詞序列中的分詞轉換為音素,得到待糾錯文本對應的音素序列;
將所述音素序列轉換為FST形式,得到待糾錯文本對應的FST;
其中,所述待糾錯文本對應的FST的輸入標簽與輸出標簽均為音素。
根據本發明提供的基于有限狀態轉換器的文本糾錯方法,所述糾錯模型的生成過程,包括:
將分詞詞典轉換為FST形式,得到FST形式的分詞詞典;
復合所述FST形式的分詞詞典和預存的專用語言模型,得到FST形式的糾錯模型;
其中,所述分詞詞典中記錄了分詞與音素的映射關系,所述專用語言模型為FST形式的模型;
所述FST形式的分詞詞典和所述FST形式的糾錯模型,均以輸入標簽為音素、輸出標簽為詞的形式展現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃豐時代數據科技有限公司,未經北京沃豐時代數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210292646.6/2.html,轉載請聲明來源鉆瓜專利網。





