[發明專利]插入噪聲的語料生成方法、裝置、設備、可讀存儲介質在審
| 申請號: | 202010175321.0 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN113392643A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 張斯曼;李安新;陳嵐;村上聰一朗 | 申請(專利權)人: | 株式會社NTT都科摩 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/58;G06N3/02;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 張曉明 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 插入 噪聲 語料 生成 方法 裝置 設備 可讀 存儲 介質 | ||
本公開提供了一種插入噪聲的語料生成方法、裝置、設備、可讀存儲介質。所述插入噪聲的語料生成方法,包括:獲取待處理語料,其中,所述待處理語料中包括至少一個詞語;對于所述至少一個詞語中的詞語,獲取所述詞語的特征信息;基于所述特征信息,確定對應于所述詞語的噪聲;以及在所述待處理語料中插入所述對應于所述詞語的噪聲,生成所述插入噪聲的語料。
技術領域
本公開涉及基于人工智能技術的自然語言處理領域,更具體地,涉及一種插入噪聲的語料生成方法、裝置、設備、可讀存儲介質。
背景技術
自然語言處理(NLP)是人工智能技術重要的應用領域之一。自然語言處理能夠讓計算機像人一樣能夠閱讀文字,理解文字背后的含義,從而完成機器翻譯、自動問答、信息檢索、情感分析、自動文本摘要等具體應用。機器翻譯作為自然語言處理的一個分支,用于基于神經網絡實現機器翻譯,諸如中譯英、英譯中等不同語言之間的翻譯。
在利用神經網絡進行諸如機器翻譯任務的自然語言處理之前,需要利用大量的訓練語料來對神經網絡的參數進行訓練,以使得神經網絡“學習”機器翻譯任務所需的知識。在口語翻譯中可能出現口誤、卡頓、吞吞吐吐等“噪聲”,造成翻譯結果錯誤。在現有的用于訓練神經網絡的訓練語料庫中,通常沒有或很少有類似具有噪聲的訓練語料。如果采用人工方式進行噪聲插入和標注,則將產生巨大的標注成本。
發明內容
鑒于上述問題而提出了本公開。本公開提供一種插入噪聲的語料生成方法、裝置、設備、可讀存儲介質,用于生成插入有噪聲的語料。
根據本公開的一方面,提供了一種插入噪聲的語料生成方法,包括:獲取待處理語料,其中,所述待處理語料中包括至少一個詞語;對于所述至少一個詞語中的詞語,獲取所述詞語的特征信息;基于所述特征信息,確定對應于所述詞語的噪聲;以及在所述待處理語料中插入所述對應于所述詞語的噪聲,生成所述插入噪聲的語料。
根據本公開的一些實施例,所述獲取所述詞語的特征信息包括:對所述待處理語料進行處理,確定對應于該詞語的噪聲類型,作為所述特征信息,其中,所述噪聲類型包括以下類型中的一種:糾正類型、語氣類型。
根據本公開的一些實施例,在確定所述噪聲類型為糾正類型的情況下,所述獲取所述詞語的特征信息還包括:獲取所述詞語的拼音,作為所述特征信息;所述確定對應于所述詞語的噪聲包括:基于所述詞語的拼音確定對應于所述詞語的噪聲。
根據本公開的一些實施例,所述基于所述詞語的拼音確定對應于所述詞語的噪聲包括:基于由語料庫得到的統計數據,在所述詞語的拼音中確定變換音節;確定對應于所述變換音節的替換音節;利用所述替換音節替換所述拼音中的所述變換音節,以生成噪聲拼音;將對應于所述噪聲拼音的詞語確定為對應于所述詞語的噪聲。
根據本公開的一些實施例,在確定所述噪聲類型為語氣類型的情況下,所述獲取所述詞語的特征信息還包括:獲取所述詞語在所述待處理語料中的位置信息,作為所述特征信息;所述確定對應于所述詞語的噪聲包括:基于所述詞語的位置信息確定對應于所述詞語的噪聲。
根據本公開的一些實施例,在確定所述噪聲類型為糾正類型的情況下,所述獲取所述詞語的特征信息還包括:獲取所述詞語的糾正噪聲的字符長度,作為所述特征信息;所述確定對應于所述詞語的噪聲包括:基于所述字符長度,確定所述糾正噪聲的保留部分,將所述保留部分確定為對應于所述詞語的噪聲。
根據本公開的一些實施例,所述方法還包括:確定所述待處理語料的噪聲插入次數;在所述噪聲插入次數大于1的情況下,在所述待處理語料中確定特征信息為語氣類型的詞語,獲取所述詞語在所述待處理語料中的位置信息,基于所述詞語的位置信息確定對應于所述詞語的噪聲,在所述待處理語料中插入所述對應于所述詞語的噪聲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社NTT都科摩,未經株式會社NTT都科摩許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010175321.0/2.html,轉載請聲明來源鉆瓜專利網。





