[發明專利]插入噪聲的語料生成方法、裝置、設備、可讀存儲介質在審

申請號：	202010175321.0	申請日：	2020-03-13
公開（公告）號：	CN113392643A	公開（公告）日：	2021-09-14
發明（設計）人：	張斯曼;李安新;陳嵐;村上聰一朗	申請（專利權）人：	株式會社NTT都科摩
主分類號：	G06F40/284	分類號：	G06F40/284;G06F40/58;G06N3/02;G06N3/08
代理公司：	北京市柳沈律師事務所 11105	代理人：	張曉明
地址：	日本***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	插入噪聲語料生成方法裝置設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種插入噪聲的語料生成方法，包括：

獲取待處理語料，其中，所述待處理語料中包括至少一個詞語；

對于所述至少一個詞語中的詞語，獲取所述詞語的特征信息；

基于所述特征信息，確定對應于所述詞語的噪聲；以及

在所述待處理語料中插入所述對應于所述詞語的噪聲，生成所述插入噪聲的語料。

2.根據權利要求1所述的方法，其中，所述獲取所述詞語的特征信息包括：

對所述待處理語料進行處理，確定對應于該詞語的噪聲類型，作為所述特征信息，其中，

所述噪聲類型包括以下類型中的一種：糾正類型、語氣類型。

3.根據權利要求2所述的方法，其中，在確定所述噪聲類型為糾正類型的情況下，所述獲取所述詞語的特征信息還包括：

獲取所述詞語的拼音，作為所述特征信息；

所述確定對應于所述詞語的噪聲包括：

基于所述詞語的拼音確定對應于所述詞語的噪聲。

4.根據權利要求3所述的方法，其中，所述基于所述詞語的拼音確定對應于所述詞語的噪聲包括：

基于由語料庫得到的統計數據，在所述詞語的拼音中確定變換音節；

確定對應于所述變換音節的替換音節；

利用所述替換音節替換所述拼音中的所述變換音節，以生成噪聲拼音；

將對應于所述噪聲拼音的詞語確定為對應于所述詞語的噪聲。

5.根據權利要求2所述的方法，其中，在確定所述噪聲類型為語氣類型的情況下，所述獲取所述詞語的特征信息還包括：獲取所述詞語在所述待處理語料中的位置信息，作為所述特征信息；

所述確定對應于所述詞語的噪聲包括：

基于所述詞語的位置信息確定對應于所述詞語的噪聲。

6.根據權利要求2所述的方法，其中，在確定所述噪聲類型為糾正類型的情況下，所述獲取所述詞語的特征信息還包括：

獲取所述詞語的糾正噪聲的字符長度，作為所述特征信息；

所述確定對應于所述詞語的噪聲包括：

基于所述字符長度，確定所述糾正噪聲的保留部分，將所述保留部分確定為對應于所述詞語的噪聲。

7.根據權利要求1-6中任一項所述的方法，還包括：

確定所述待處理語料的噪聲插入次數；

在所述噪聲插入次數大于1的情況下，在所述待處理語料中確定特征信息為語氣類型的詞語，獲取所述詞語在所述待處理語料中的位置信息，基于所述詞語的位置信息確定對應于所述詞語的噪聲，在所述待處理語料中插入所述對應于所述詞語的噪聲。

8.一種插入噪聲的語料生成裝置，包括：

獲取單元，配置成獲取待處理語料，其中，所述待處理語料中包括至少一個詞語；

特征單元，配置成對于所述至少一個詞語中的詞語，獲取所述詞語的特征信息；

噪聲單元，配置成基于所述特征信息，確定對應于所述詞語的噪聲；以及

插入單元，配置成在所述待處理語料中插入所述對應于所述詞語的噪聲，生成所述插入噪聲的語料。

9.一種插入噪聲的語料生成設備，包括：

處理器；和

存儲器，其中，所述存儲器中存儲有計算機可讀代碼，所述計算機可讀代碼當由所述處理器運行時，執行如權利要求1-7中任一項所述的插入噪聲的語料生成方法。

10.一種計算機可讀存儲介質，其上存儲有指令，所述指令在被處理器執行時，使得所述處理器執行如權利要求1-7中任一項所述的插入噪聲的語料生成方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于株式會社NTT都科摩，未經株式會社NTT都科摩許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010175321.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：磁共振無線接收線圈裝置、磁共振信號無線接收方法及磁共振系統
下一篇：柔性面板

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】