[發明專利]一種基于歌詞的歌曲檢索系統及其檢索方法有效
| 申請號: | 201210555192.3 | 申請日: | 2012-12-19 |
| 公開(公告)號: | CN103885949B | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 趙慶衛;顏永紅;吳曉;潘接林 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京法思騰知識產權代理有限公司11318 | 代理人: | 楊小蓉,楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 歌詞 歌曲 檢索系統 及其 檢索 方法 | ||
1.一種基于歌詞的歌曲檢索系統,包括:
基于歌詞庫信息建立正向索引表和反向索引表:所述歌詞庫信息包括歌名和歌詞;正向索引的數據結構ForwardIdx中包括一個頭以及頭信息,然后是歌名,歌名后跟的是此歌曲中的歌詞;反向索引數據結構ReverseIdx中包含一個頭以及相對應的頭信息,然后跟的是一個詞以及對應此詞一系列的命中信息,每個命中信息包含兩部分信息:歌曲id和pos;歌曲id是指此詞在歌曲中的位置,pos指出此詞出現的位置;
語音識別引擎,用于將用戶輸入的原始語音數據轉化為文本識別結果;
檢索關鍵詞選取模塊,用于將文本識別結果中的部分詞選出作為檢索關鍵詞;
歌詞定位模塊,用于根據關鍵詞在歌詞庫中定位候選歌曲的位置,得到候選定位點;以及
候選歌曲精確匹配模塊,用于在所述候選定位點中選出最佳的N個歌曲并將其返回給用戶;
所述歌詞定位模塊的具體實現過程為:
31)用檢索關鍵詞模塊選出的所有檢索關鍵詞構成候選詞集合;
32)基于所述候選詞集合,查找包含候選詞集合所有的候選詞的歌曲;如果找到,則直接進入候選歌曲精確匹配模塊;如果沒有找到,則進入33);
所述查找包含候選詞集合所有的候選詞的歌曲的過程為:用候選詞集合中的第一個元素,去查反向索引表,依次查命中信息,因為詞的后邊的每一個命中信息都包含有歌曲名和歌詞在歌曲中所在的位置,所以對查到的命中信息進行基于正向索引的檢索,即按照每一個命中信息查找正向索引表,如果找到的歌曲包含候選詞集合所有的候選詞;
33)在候選詞集合中去掉一個元素得到該候選詞集合的子集,基于該子集,查找包含該子集所有的候選詞的歌曲,如果找到,則直接進入候選歌曲精確匹配模塊;如果沒有找到,則基于去掉2~3個元素的候選詞集合的子集繼續查找,這樣,用子集逐漸搜索,從而找出多個候選定位點,然后進入候選歌曲精確匹配模塊。
2.一種基于歌詞的歌曲檢索方法,包括下列步驟:
1)基于歌詞庫信息建立正向索引表和反向索引表;所述歌詞庫信息包括歌名和歌詞;
正向索引的數據結構ForwardIdx中包括一個頭以及頭信息,然后是歌名,歌名后跟的是此歌曲中的歌詞;反向索引數據結構ReverseIdx中包含一個頭以及相對應的頭信息,然后跟的是一個詞以及對應此詞一系列的命中信息,每個命中信息包含兩部分信息:歌曲id和pos;歌曲id是指此詞在歌曲中的位置,pos指出此詞出現的位置;
2)將用戶輸入的原始語音數據轉化為文本識別結果;
3)將文本識別結果中的部分詞選出作為檢索關鍵詞;
4)根據關鍵詞在歌詞庫中定位候選歌曲的位置,得到候選定位點;
5)在所述候選定位點中選出最佳的N個歌曲并將其返回給用戶;
所述步驟4)包括下列子步驟:
41)用步驟3)所選出的所有檢索關鍵詞構成候選詞集合;
42)基于所述候選詞集合,查找包含候選詞集合所有的候選詞的歌曲;如果找到,直接進入步驟5);如果沒有找到,則進入步驟43);
所述查找包含候選詞集合所有的候選詞的歌曲的過程為:用候選詞集合中的第一個元素,去查反向索引表,依次查命中信息,因為詞的后邊的每一個命中信息都包含有歌曲名和歌詞在歌曲中所在的位置,所以對查到的命中信息進行基于正向索引的檢索,即按照每一個命中信息查找正向索引表,如果找到的歌曲包含候選詞集合所有的候選詞,
43)在候選詞集合中去掉一個元素得到該候選詞集合的子集,基于該子集,查找包含該子集所有的候選詞的歌曲,如果找到,則直接進入步驟4);如果沒有找到,則基于去掉2~3個元素的候選詞集合的子集繼續查找,這樣,用子集逐漸搜索,從而找出多個候選定位點,然后進入步驟5)。
3.根據權利要求2所述的基于歌詞的歌曲檢索方法,其特征在于,所述步驟5)包括下列子步驟:
51)將各個候選定位點的歌詞與步驟2 )所得出的文本識別結果進行匹配;
52)將匹配相似度最高的N個候選定位點所對應的歌曲返回給用戶。
4.根據權利要求3所述的基于歌詞的歌曲檢索方法,其特征在于,所述步驟51)中,采用動態規劃算法進行匹配。
5.根據權利要求3所述的基于歌詞的歌曲檢索方法,其特征在于,所述步驟51)中,對候選詞與文本識別結果分別進行基于字的匹配和基于音素的匹配,然后對匹配結果進行線性加權得到最終的匹配相似度;具體為:
搜索結果與語音識別結果的相似度得分計算方法:采用兩級動態規劃匹配:
1)字兩級動態規劃:候選詞與語音識別結果進行字兩級動態規劃匹配;
2)音素兩級動態規劃:建立混淆矩陣,候選詞與語音識別結果進行音素兩級動態規劃匹配;
假設字兩級動態規劃的匹配得分為Score(Word),音素兩級動態規劃的匹配得分為Score(Phone);則綜合得分為:α·Score(Word)+β·Score(Phone),該值為最終的匹配相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210555192.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種治療血虛證型產后身痛的中藥
- 下一篇:一種緩存處理方法及裝置





