[發明專利]音頻脫敏的方法、裝置、電子設備以及可讀存儲介質有效
| 申請號: | 202110039707.3 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112885371B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 張晴晴;曹艷麗;賈艷明;張雪璐 | 申請(專利權)人: | 北京愛數智慧科技有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/48;G10L15/18 |
| 代理公司: | 北京智沃律師事務所 11620 | 代理人: | 吳志宏 |
| 地址: | 100088 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 方法 裝置 電子設備 以及 可讀 存儲 介質 | ||
本申請公開了一種音頻脫敏的方法、裝置、電子設備以及可讀存儲介質,音頻脫敏的方法包括:獲取用戶的第一音頻數據,第一音頻數據包括全部音素的發音片段;獲取所述第一音頻中所述全部音素的發音片段;利用語音合成技術對發音片段進行合成,以得到敏感詞匯對應的合成音頻;建立與對應的敏感音頻特征模型;獲取用戶的第二音頻數據;通過敏感音頻特征模型對第二音頻數據的聲學特征進行相似度匹配;在相似度大于預設值的情況下,對第二音頻數據進行內容識別,以得到與第二音頻數據對應的內容識別文本;以敏感內容詞庫作為匹配數據庫,判斷內容識別文本中是否含有敏感詞匯;在內容識別文本中存在敏感詞匯時,對敏感詞匯對應的語音片段進行替換。
技術領域
本申請屬于人工智能技術領域,具體涉及一種音頻脫敏的方法和裝置。
背景技術
如今大量的企業都會自主進行語音數據的采集,例如對客服和用戶之間的通話進行錄音等,因此采集的音頻中往往包含大量的敏感信息,例如個人證件號碼、姓名、地址、價格、注冊信息等。
目前的現有技術至少存在如下問題:這樣的音頻數據采集環境是安全性較低。在通信的過程中,不法組織往往會利用如今的語音數據采集來騙取用戶的重要個人信息。
發明內容
本申請實施例的目的是提供一種音頻脫敏的方法、裝置、電子設備和可讀存儲介質,能夠解決目前音頻數據采集安全性較低,用戶易被騙取重要個人信息的技術問題。
為了解決上述技術問題,本申請是這樣實現的:
第一方面,本申請實施例提供了一種音頻脫敏的方法,其特征在于,包括:
獲取用戶的第一音頻數據,所述第一音頻數據包括全部音素的發音片段;
對所述第一音頻數據進行聲學特征提取,并獲取所述第一音頻中所述全部音素的發音片段;
將所述用戶的標識和與所述用戶對應的所述全部音素的發音片段記錄到音源庫中;
以與所述用戶對應的所述全部音素的發音片段作為聲音來源,以敏感內容詞庫作為內容來源,利用語音合成技術對所述發音片段進行合成,以得到敏感詞匯對應的合成音頻;
對所述合成音頻進行聲學特征提取,并根據所述合成音頻的聲學特征建立與所述用戶對應的敏感音頻特征模型;
獲取所述用戶的第二音頻數據;
通過所述敏感音頻特征模型對所述第二音頻數據的聲學特征進行相似度匹配;
在相似度大于預設值的情況下,對所述第二音頻數據進行內容識別,以得到與所述第二音頻數據對應的內容識別文本;
以所述敏感內容詞庫作為匹配數據庫,判斷所述內容識別文本中是否含有所述敏感詞匯;
在所述內容識別文本中存在所述敏感詞匯的情況下,對所述敏感詞匯對應的語音片段進行替換。
進一步地,所述對所述敏感詞匯對應的語音片段進行替換,具體為:
將所述敏感詞匯對應的語音片段替換為同等時長的空白音頻。
進一步地,所述對所述敏感詞匯對應的語音片段進行替換,具體包括:
對所述內容識別文本中存在的所述敏感詞匯進行分類;
根據分類結果,將所述敏感詞匯替換為同類型的脫敏詞匯;
利用所述用戶對應的所述全部音素的發音片段合成所述脫敏詞匯對應的語音片段;
將所述脫敏詞匯對應的語音片段的時長調整為所述敏感詞匯對應的語音片段的時長;
將所述敏感詞匯對應的語音片段替換為所述脫敏詞匯對應的語音片段,以得到脫敏后的第三音頻數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京愛數智慧科技有限公司,未經北京愛數智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110039707.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種皮帶傳輸系統中末端彈射裝置
- 下一篇:一種園林用鏟叉快速切換功能鏟





