[發明專利]一種云存儲環境下中文語音密文存儲、檢索方法及系統在審

申請號：	202011138829.X	申請日：	2020-10-22
公開（公告）號：	CN112233666A	公開（公告）日：	2021-01-15
發明（設計）人：	陳馳;韋馨蕾;田雪;王佳寧;蘇帥	申請（專利權）人：	中國科學院信息工程研究所
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/14;G10L15/183;G10L15/22;G10L15/26;H04L9/06;H04L29/06;H04L29/08;G06F16/683
代理公司：	北京君尚知識產權代理有限公司 11200	代理人：	余長江
地址：	100093 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種存儲環境中文語音文存檢索方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種云存儲環境下中文語音密文存儲方法，適用于云服務端、服務端及用戶端組成的網絡系統，其步驟包括：

1)接收并識別用戶端發送的語音文件，生成識別文本文件；

2)獲取所述識別文本文件的關鍵字，并對所述語音文件與關鍵字加密，生成語音文件的密文數據及密文索引；

3)將語音文件的密文數據及密文索引上傳至相應云服務器端，使相應云服務器端存儲語音文件的密文數據及密文索引。

2.如權利要求1所述的方法，其特征在于，將所述語言文件輸入一訓練好的識別網絡，生成識別文本文件；其中，通過以下步驟得到所述訓練好的識別網絡：

1)取樣本語音數據集，將提取的各樣本語音數據聲學特征輸入一聲學模型，得到預訓練聲學模型；

2)取樣本文本數據集，將各樣本文本數據輸入一語言模型，得到預訓練語言模型；

3)各樣本語音數據輸入一由所述預訓練聲學模型、預訓練語言模型及字典組成的識別網絡，通過搜索算法在該識別網絡中尋找最佳的一條路徑，以最大概率輸出該語音信號的詞串為目標，訓練所述識別網絡，得到訓練好的識別網絡。

3.如權利要求2所述的方法，其特征在于，所述語言模型包括：統計語言模型或N-gram語言模型。

4.如權利要求2所述的方法，其特征在于，所述聲學模型包括：HMM聲學模型。

5.如權利要求1所述的方法，其特征在于，通過以下步驟得到關鍵字：

1)對識別文本文件進行預處理；

2)采用分詞系統對預處理后的識別文本文件進行分詞處理，得到關鍵字。

6.如權利要求5所述的方法，其特征在于，所述預處理包括：去除冗余字段、停用詞和標點符號。

7.如權利要求1所述的方法，其特征在于，通過以下步驟得到密文索引：

1)對各關鍵字進行分析，獲取關鍵字的評分；

2)通過用戶密鑰與加密算法加密索引中的關鍵字加密，得到密文關鍵字；

3)依據關鍵字的評分，對密文關鍵字進行整理，得到密文索引。

8.一種云存儲環境下中文語音密文檢索方法，適用于云服務端、服務端及用戶端組成的網絡系統，其步驟包括：

1)接收用戶端的查詢關鍵字，并對查詢關鍵字進行加密；

2)根據加密結果，生成查詢請求，并將所述查詢請求發送至相應云服務端，以使相應云服務端通過所述查詢請求及通過以上方法得到的密文索引，獲取密文數據；

3)接收云服務端發送的密文數據，并將所述密文數據返回至用戶端，以使用戶端通過用戶密鑰對所述密文數據解密，得到相應的音頻文件。

9.如權利要求8所述的方法，其特征在于，加密結果包括：查詢關鍵字的哈希計算結果。

10.一種云存儲環境下中文語音密文檢索系統，包括：

用戶端，用以生成語音文件；生成查詢關鍵字；通過用戶密鑰對密文數據解密，得到相應的音頻文件；

服務端，用以接收并識別用戶端發送的語音文件，生成識別文本文件；獲取識別文本文件的關鍵字，并對語音文件與關鍵字加密，生成語音文件的密文數據及密文索引；將語音文件的密文數據及密文索引上傳至相應云服務器端；接收用戶端的查詢關鍵字，并對查詢關鍵字進行加密；根據加密結果，生成查詢請求，并將查詢請求發送至相應云服務端；接收云服務端發送的密文數據，并將密文數據返回至客戶端；

云服務端，用以存儲語音文件的密文數據及密文索引；通過密文查詢請求及密文索引，獲取密文數據。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所，未經中國科學院信息工程研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011138829.X/1.html，轉載請聲明來源鉆瓜專利網。