[發明專利]一種英文粘連詞錯誤的還原方法有效
| 申請號: | 202010883348.5 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112016322B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 劉興宇;杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F18/214;G06F40/216;G06F40/163;G06F16/31 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 英文 粘連 錯誤 還原 方法 | ||
本發明公開一種英文粘連詞錯誤的還原方法,步驟為:在現有的已清洗過的高質量英文數據集中隨機抽取數據;對采集到的問題數據進行抽樣統計,得到粘連詞數及粘連位置的分布概率;數據構造,根據粘連詞的分布情況構造偽粘連詞數據,根據對待清洗數據的抽樣統計出含有粘連詞的句子占比,結合粘連詞數及粘連位置的分布構造偽粘連數據;在將構造的偽粘連詞數據送入模型訓練之前,對其做預處理操作;數據訓練,對模型參數進行調整,選取最優模型,利用最優模型對獲取到的待清洗的英文數據中的粘連詞進行修正,得到還原后的正確數據。本發明能夠精確地識別英文粘連詞,并將其還原成獨立詞匯,整個過程由訓練的模型完成,高效且便捷,且具備可遷移性。
技術領域
本發明涉及一種英文數據清洗技術,具體為一種英文數據中粘連詞錯誤的還原方法。
背景技術
在以海量數據為驅動的自然語言處理任務中,數據清洗是保證數據質量的首要工作。數據獲取的渠道繁多,在使用網絡爬蟲、OCR(Optical?Character?Recognition,光學字符識別)識別等計算機自動采集技術獲取英文數據單語或包含英文的雙語數據的過程中,會因為以下幾種錯誤導致英文數據中單詞之間空格丟失,造成多詞粘連的情況,以下統稱為粘連詞。
造成粘連詞問題的幾種常見錯誤:
1)轉換錯誤:在轉換過程中,單詞之間的一些空格可能會丟失,例如,通過刪除換行符而不是將其替換為空格;
2)OCR錯誤:原始文檔或手寫文本的質量較差可能會導致無法正確識別單詞之間的所有空格;
3)傳輸錯誤:在嘈雜的信道上傳輸時,空格可能會丟失或引入拼寫錯誤;
4)獲取錯誤:從URL地址、域名、表列描述或編程變量中提取的關鍵字,這些變量不帶空格。
粘連詞錯誤數據如下所示:
錯誤句子:There?is?the?prospectof?employment?once?the?training?iscompleted.
正確形式:There?is?the?prospect?of?employment?once?the?training?iscompleted.
目前大多自然語言處理任務(機器翻譯、命名實體識別、語義分析等)均依賴語料庫,在任務訓練過程中,使用訓練語料的數量越多,在訓練過程中能夠學到的信息就越豐富,效果就會更好;同時,訓練語料中數據的質量好壞也尤為重要,數據質量越好,效果就越好,數據數量和質量是相輔相成的關系,在自然語言處理任務中缺一不可。
英文粘連詞問題嚴重影響了英文數據的質量,因此,在清洗數據的過程中考慮對英文粘連詞進行還原是非常重要的,并進一步影響語料庫的質量,而目前能夠提高語料庫質量的英文粘連詞錯誤的還原方法尚未見報道。
發明內容
針對在獲取大量數據時,使用網絡爬蟲、OCR識別等計算機自動采集技術造成的英文數據中有粘連詞的數據錯誤,本發明要解決的問題是提供一種可避免英文數據出現粘連詞的數據錯誤、提高英文數據質量的英文數據粘連詞的還原方法。
為解決上述粘連詞問題,本發明采用的技術方案是:
本發明提供一種英文數據中粘連詞的還原方法,包括以下步驟:
1)在現有的已清洗過的高質量英文數據集中隨機抽取數據,為任務訓練所需的高質量數據做準備;
2)觀察獲取到的待清洗的英文數據集中含有粘連詞的數據,對采集到的問題數據進行抽樣統計,得到粘連詞數及粘連位置的分布概率;
3)利用步驟1)中抽取的數據進行數據構造,根據粘連詞的分布情況構造偽粘連詞數據,根據對待清洗數據的抽樣統計出含有粘連詞的句子占比,結合粘連詞數及粘連位置的分布構造偽粘連數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010883348.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電磁鐵磁芯管的導向成型方法
- 下一篇:一種多目標的行為識別方法及系統





