[發(fā)明專利]建立音頻檢索索引的方法、裝置及計算機(jī)設(shè)備在審
| 申請?zhí)枺?/td> | 201811550607.1 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109635151A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設(shè)計)人: | 鄭勇;王輝 | 申請(專利權(quán))人: | 深圳市沃特沃德股份有限公司 |
| 主分類號: | G06F16/61 | 分類號: | G06F16/61;G06F16/65 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市南山區(qū)蛇口*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音段 音頻檢索 索引 目標(biāo)音頻 計算機(jī)設(shè)備 檢索 語音 播放位置 關(guān)聯(lián)保存 建立索引 分類 內(nèi)包 | ||
本發(fā)明提出了一種建立音頻檢索索引的方法、裝置及計算機(jī)設(shè)備,其中建立音頻檢索索引的方法包括:將目標(biāo)音頻分成若干個語音段,其中,每個所述語音段中僅包括一個人物的語音;確定各個語音段所對應(yīng)的人物;根據(jù)各個語音段所對應(yīng)的不同人物,對各個語音段進(jìn)行分類;將分類后的語音段與目標(biāo)音頻進(jìn)行關(guān)聯(lián)保存,以在語音段和目標(biāo)音頻間建立索引關(guān)系,形成音頻檢索索引。在建立了音頻檢索索引之后,用戶能夠檢索出音頻內(nèi)包含有某個特定人物的語音的所有語音段,以及精準(zhǔn)確定檢索出來的語音段在音頻中的具體播放位置,便于用戶對音頻進(jìn)行回看或整理。
技術(shù)領(lǐng)域
本發(fā)明涉及到索引建立領(lǐng)域,特別是涉及到一種建立音頻檢索索引的方法、裝置及計算機(jī)設(shè)備。
背景技術(shù)
在現(xiàn)有的音頻或者視頻文件中,人們?nèi)绻胍乜匆纛l或者視頻中的某一部分,一般都是采用快進(jìn)或者快退,或者手動拉動進(jìn)度條,以調(diào)整到自己想要回看的部分,這種回看方式只適合于純粹觀看或者只是偶爾回看的場景。當(dāng)人們需要對音頻或者視頻中的某一個特定人物所說的話進(jìn)行檢索或者整理時,采用這種回看方式就費(fèi)時費(fèi)力,而且效率低下。因此,以上問題亟待解決。
發(fā)明內(nèi)容
本發(fā)明的主要目的為提供一種建立音頻檢索索引的方法、裝置及計算機(jī)設(shè)備,可以建立音頻文件中的各個語音段與目標(biāo)音頻之間的索引關(guān)系。
本發(fā)明提出一種建立音頻檢索索引的方法,包括:
將目標(biāo)音頻分成若干個語音段;其中,每個語音段中僅包括一個人物的語音;
確定各個語音段所對應(yīng)的人物;
根據(jù)各個語音段所對應(yīng)的不同人物,對各個語音段進(jìn)行分類;
將分類后的語音段與目標(biāo)音頻進(jìn)行關(guān)聯(lián)保存,以在語音段和目標(biāo)音頻之間建立索引關(guān)系,形成音頻檢索索引。
進(jìn)一步地,將目標(biāo)音頻分成若干個語音段的步驟,包括:
識別目標(biāo)音頻中包含的所有原始語音段;
對每個原始語音段的起點(diǎn)和終點(diǎn)進(jìn)行標(biāo)記,形成若干個語音段。
進(jìn)一步地,確定各個語音段所對應(yīng)的人物的步驟,包括:
在各個語音段之間進(jìn)行語音特征參數(shù)的互相對比;
對語音特征參數(shù)相同的語音段做同一分類標(biāo)記。
進(jìn)一步地,在在各個語音段之間進(jìn)行語音特征參數(shù)的互相對比的步驟之前,包括:
提取每個語音段的語音特征參數(shù)。
進(jìn)一步地,根據(jù)各個語音段所對應(yīng)的不同人物,對各個語音段進(jìn)行分類的步驟,包括:
根據(jù)分類標(biāo)記,對各個語音段進(jìn)行分類。
進(jìn)一步地,在將分類后的語音段與目標(biāo)音頻進(jìn)行關(guān)聯(lián)保存,形成音頻檢索索引的步驟之前,還包括:
參照目標(biāo)音頻的原始播放時間,對每個語音段播放時間的信息進(jìn)行記錄;
根據(jù)記錄的播放時間的信息,按照播放時間的先后順序排列各個分類內(nèi)的語音段。
進(jìn)一步地,在將分類后的語音段與目標(biāo)音頻進(jìn)行關(guān)聯(lián)保存,以在語音段和目標(biāo)音頻間建立索引關(guān)系,形成音頻檢索索引的步驟之后,還包括:
將每個分類內(nèi)中的每個語音段的語音識別為文字;
將文字與對應(yīng)的語音段進(jìn)行關(guān)聯(lián)保存。
本發(fā)明還提出了一種建立音頻檢索索引的裝置,包括:
分割模塊,用于將目標(biāo)音頻分成若干個語音段;其中,每個語音段中僅包括一個人物的語音;
確定模塊,用于確定各個語音段所對應(yīng)的人物;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市沃特沃德股份有限公司,未經(jīng)深圳市沃特沃德股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811550607.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





