[發明專利]一種語音音頻篩選系統有效
| 申請號: | 201910339618.3 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110134819B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 王健;蘇戰;王鑫;劉衛平 | 申請(專利權)人: | 廣州智伴人工智能科技有限公司 |
| 主分類號: | G06F16/635 | 分類號: | G06F16/635;G06F16/683 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;張國香 |
| 地址: | 510000 廣東省廣州市海珠區廣州大道南1*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 音頻 篩選 系統 | ||
1.一種語音音頻篩選系統,其特征在于,包括:
分析模塊,用于對用戶喜歡的目標語音音頻的音頻特征進行分析,獲得所述目標語音音頻的音頻特征;
獲取模塊,用于獲取第一語音音頻,并分析所述第一語音音頻的音頻特征;
對比模塊,用于比對所述第一語音音頻的音頻特征與所述目標語音音頻的音頻特征,當二者的比對結果滿足預設條件時確定所述第一語音音頻為可選語音音頻,其過程具體步驟包括;
確定所述第一語音音頻對應的第一語音音頻特征矩陣,通過以下公式(1),對第一語音音頻進行綜合打分:
其中F為第一語音音頻的綜合得分,(Y1 Y2…Yn)為第一語音音頻特征矩陣,其中Yi為第一語音音頻的第i個特征的值,(y1 y2…yn)為目標語音音頻的音頻特征矩陣,yi為目標語音音頻的第i個特征的值,i=1、2、3,…..n,且相同的i所對應的特征為同一類別的特征,為需求解的用戶操作矩陣C;
在求解用戶操作矩陣C時,首先構建一個用戶數據庫,該用戶數據庫中有j條記錄,每條記錄中都包含有所述n個特征對應的值,形成特征矩陣B,特征矩陣B為j行n列的一個矩陣,每一行代表一條記錄,每一列代表一類特征,然后利用公式(2)對矩陣B中的每一個元素進行標準化;
其中bst為矩陣B中的第s行第t列的值,其中s=1、2、3……j,t=1、2、3……n,為bst標準化后的值,為第t列的均值,σt為第t列的方差,對于每一個bst都會通過標準化得到相應的從而可以得到一個新的矩陣B*,為了得到矩陣B*每一列之間的相關性,需要求解矩陣B*中每一列的協方差,形成新的矩陣Cov
其中為矩陣B*的第i列和第x列之間的協方差,i=1、2、3……n,x=1、2、3……n;然后利用公式(3)求解協方差矩陣Cov的特征值和特征向量:
|Cov-λE|=0
(3)
其中Cov為協方差矩陣,E為單位矩陣,所求解出來的λ則為所需的特征向量的值,將所求解的最大特征值λ0帶入特征方程式,得出相應的基礎解系,則該基礎解系的值就為求解的用戶操作矩陣
通過算式(1)可以看出求解的用戶操作矩陣C和語音特征均會影響到打分的數值,將前述利用公式(1)得到的對第一語音音頻的綜合打分代入如下公式(4):
min(|F-F1|,|F-F2|,|F-F3|,…,|F-Fm|)
(4)
其中,Fi為語音數據庫中,所述用戶針對第i個預設語音音頻的綜合打分,所述i=1、2、3……m;所述語音數據庫中還存儲了所述用戶對所述第i個預設語音音頻是否為用戶所喜歡的語音音頻進行了標注;
然后,根據上述公式(4)所得的值所對應的Ft;
在所述語音數據庫中,查找所述Ft所述對應的第t個預設語音音頻是否為是用戶喜歡的語音音頻;如果是,則確定所述第一語音音頻為可選語音音頻;否則,確定所述第一語音音頻不是可選語音音頻。
2.根據權利要求1所述的一種語音音頻篩選系統,其特征在于,
所述音頻特征包括以下參數中的一項或者多項:
停頓時長均值;預設單位時間內的總停頓時長;短時沉默的平均時長;預設單位時間內短時沉默的總時長;平聲片段時長均值;預設單位時間內平聲片段的總時長;升調片段時長均值;預設單位時間內升調片段的總時長;降調片段時長均值;預設單位時間內降調片段的總時長;平聲片段振幅偏移均值;升調片段振幅偏移均值;降調片段振幅偏移均值;預設單位時間內的音調差異和范圍;預設單位時間內的音調斜率;音頻信號的時頻形狀和頻譜包絡樣式;以及平聲;升調和降調趨勢的時間順序樣式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州智伴人工智能科技有限公司,未經廣州智伴人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910339618.3/1.html,轉載請聲明來源鉆瓜專利網。





