[發明專利]一種語句的糾錯方法及設備在審
| 申請號: | 201911157807.5 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN112836495A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 曹源 | 申請(專利權)人: | TCL集團股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 左婷蘭 |
| 地址: | 516006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語句 糾錯 方法 設備 | ||
本發明適用于數據處理技術領域,提供了一種語句的糾錯方法及設備,包括:通過預設的關聯概率識別模型識別目標語句包含的異常分詞;將目標語句內的異常分詞替換為合法分詞,得到已糾錯語句。本發明無需依賴人工對語句糾錯,而是可以通過關聯概率識別模型對目標語句進行語句糾錯,在確保了輸出語句的準確率的同時,也能夠提高語句糾錯的效率,滿足了當今電子數據量龐大的校驗需求。
技術領域
本發明屬于數據處理技術領域,尤其涉及一種語句的糾錯方法及設備。
背景技術
隨著電子化進程的不斷推進,越來越多的信息通過電子化的方式進行存儲,例如可以通過語音識別,將聲音信號轉換為文字數據,又例如通過輸入法將用戶所需書寫的內容轉換為電子文檔。而當用戶通過聲音信號或者輸入法輸入文字信息的過程中,常常在輸出的文字數據中出現語句錯誤,例如在通過聲音信號轉換為文字數據時夾帶了方言,導致無法準確識別用戶所表達的文字數據;又例如用戶使用輸入法輸入電子文檔時,會出現拼音錯誤或形似字錯誤等情況,從而導致了輸出的電子文檔包含了錯別字。
對于上述情況,現有的語句糾錯技術中,主要是通過人工對海量的數據進行人工校對,需要耗費較高的人力及時間成本,雖然更專業準確,但是校對過程效率較低,特別在當今電子數據以幾何級的數量增長,人工校對的方式顯然無法滿足實際校驗需求。
發明內容
有鑒于此,本發明實施例提供了一種語句的糾錯方法及設備,以解決現有的語句糾錯技術需要耗費較高的人力及時間成本,校對過程效率較低的問題。
本發明實施例的第一方面提供了一種語句的糾錯方法,包括:
通過預設的關聯概率識別模型識別目標語句包含的異常分詞;
將所述目標語句內的所述異常分詞替換為合法分詞,得到已糾錯語句。
本發明實施例的第二方面提供了一種語句的糾錯設備,包括:
異常分詞識別單元,用于通過預設的關聯概率識別模型識別目標語句包含的異常分詞;
已糾錯語句輸出單元,用于將所述目標語句內的所述異常分詞替換為合法分詞,得到已糾錯語句。
本發明實施例的第三方面提供了一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現第一方面的各個步驟。
本發明實施例的第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現第一方面的各個步驟。
實施本發明實施例提供的一種語句的糾錯方法及設備具有以下有益效果:
本發明實施例通過將需要進行語句糾錯的目標語句導入關聯概率識別模塊,識別該目標語句中是否包含與整個語句之間關聯度較低的異常分詞,并將目標語句中的所有異常分詞均替換為對應的合法分詞,生成并輸出已糾錯語句,實現了對目標語句進行自動糾錯的目的。與現有的語句糾錯技術相比,本發明無需依賴人工對語句糾錯,而是可以通過關聯概率識別模型對目標語句進行語句糾錯,在確保了輸出語句的準確率的同時,也能夠提高語句糾錯的效率,滿足了當今電子數據量龐大的校驗需求。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明第一實施例提供的一種語句的糾錯方法的實現流程圖;
圖2是本發明第二實施例提供的一種語句的糾錯方法S101具體實現流程圖;
圖3是本發明第三實施例提供的一種語句的糾錯方法具體實現流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于TCL集團股份有限公司,未經TCL集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911157807.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種肛瘺內口封閉引流器
- 下一篇:一種用于LDPC譯碼的優化方法





