[發明專利]文本糾錯語料生成方法、裝置、設備及存儲介質在審
| 申請號: | 202211412212.1 | 申請日: | 2022-11-11 |
| 公開(公告)號: | CN115688767A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 王亭;李志飛 | 申請(專利權)人: | 出門問問創新科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N3/02 |
| 代理公司: | 北京樂知新創知識產權代理事務所(普通合伙) 11734 | 代理人: | 周偉 |
| 地址: | 210000 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 語料 生成 方法 裝置 設備 存儲 介質 | ||
1.一種文本糾錯語料生成方法,其特征在于,所述方法包括:
將原始語料進行預處理,得到待處理語料;
獲取所述待處理語料的實體信息,并根據所述待處理語料的實體信息確定所述待處理語料的多個錯誤位置;
根據錯誤類型共存策略,在所述待處理語料的多個錯誤位置設置錯誤文本,以生成初步文本糾錯語料;
通過語言困惑模型過濾所述初步文本糾錯語料,得到目標文本糾錯語料。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述待處理語料的實體信息,并根據所述待處理語料的實體信息確定所述待處理語料的多個錯誤位置,包括:
獲取所述待處理語料的實體詞以及所述實體詞的實體位置;
以詞粒度作為分割單位,將所述待處理語料輸入分詞模型進行分割,得到具有分詞結構的待處理語料;
設定預設錯誤頻次,以避開所述實體詞以及所述實體詞的實體位置為原則,在所述具有分詞結構的待處理語料中確定多個錯誤位置。
3.根據權利要求2所述的方法,其中,所述錯誤類型包括:音相似錯誤類型、形相似錯誤類型、顛倒錯誤類型、多字錯誤類型以及少字錯誤類型,相應的,所述根據錯誤類型共存策略,在所述待處理語料的多個錯誤位置設置錯誤文本,以生成初步文本糾錯語料,包括:
在基于同一句待處理語料中音相似錯誤和形相似錯誤不共存的前提下,按照預設錯誤類型比例,在所述待處理語料的多個錯誤位置設置相應的錯誤類型文本,以生成初步文本糾錯語料;其中,所述音相似錯誤類型包括:“的地得”錯誤類型。
4.根據權利要求3所述的方法,其特征在于,在所述待處理語料的多個錯誤位置設置相應的錯誤類型文本,包括:
若所述錯誤類型為音相似錯誤類型,則基于音相似混淆數據集,在所述待處理語料的當前錯誤位置設置具有音相似錯誤類型的錯誤文本,其中,所述音相似混淆數據集為具有拼音內部的聲母、韻母、以及聲調相似讀音的混淆數據集;或者,
若所述錯誤類型為形相似錯誤類型,則基于形相似混淆數據集,在所述待處理語料的當前錯誤位置設置具有形相似錯誤類型的錯誤文本,其中,所述形相似混淆數據集為具有形相近或者混淆字詞的混淆數據集;或者,
若所述錯誤類型為顛倒錯誤類型,則通過設置鄰詞顛倒與單字顛倒的預設顛倒比例,以及預設顛倒詞范圍長度,在所述待處理語料的當前錯誤位置設置具有顛倒錯誤類型的錯誤文本;或者,
若所述錯誤類型為多字錯誤類型,則通過設置與當前錯誤位置中的邊緣字進行成詞以及隨機插字的預設多字比例,在當前錯誤位置的相鄰位置設置具有多字錯誤類型的錯誤文本;或者,
若所述錯誤類型為少字錯誤類型,則通過在當前錯誤位置的文本中隨機刪除預設字數的文字,以形成具有少字錯誤類型的錯誤文本;或者,
若所述錯誤類型為“的地得”錯誤類型,且滿足“的地得”位于當前錯誤位置的末端位置處,或者“的地得”在當前錯誤位置屬于單字結構的條件下,則在所述當前錯誤位置設置具有“的地得”錯誤類型的錯誤文本。
5.根據權利要求4所述的方法,其特征在于,所述通過語言困惑模型過濾所述初步文本糾錯語料,得到目標文本糾錯語料,包括:
分別將所述待處理語料以及與其對應的所述初步文本糾錯語料輸入所述語言困惑模型,得到所述待處理語料的第一分數和所述初步文本糾錯語料的第二分數;
確定所述待處理語料的第一分數和所述初步文本糾錯語料的第二分數的分數差值,將不滿足預設差別閾值的分數差值篩選出來,刪除與其對應的初步文本糾錯語料,并將剩余的初步文本糾錯語料作為目標文本糾錯語料。
6.根據權利要求5所述的方法,其特征在于,所述將原始語料進行預處理,得到待處理語料,包括:
通過正則表達式對所述原始語料進行處理,去除所述原始語料中的噪聲語料數據,得到所述待處理語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于出門問問創新科技有限公司,未經出門問問創新科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211412212.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數字式磁通門電流傳感器
- 下一篇:車用功率模塊及應用車用功率模塊的車輛





