[發明專利]確定音樂實體關系的方法和裝置及查詢處理方法和裝置有效
| 申請號: | 201410749432.2 | 申請日: | 2014-12-09 |
| 公開(公告)號: | CN104484379B | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 雷小強;田振雷;王森;魯曉瑩 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 路凱;胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法和裝置 音樂 網頁 樣本 實體關系 原始網頁 查詢處理 語義分析 句子 網絡 | ||
1.一種確定音樂實體關系的方法,其特征在于,包括:
通過搜索引擎輸入包含有音樂實體信息的檢索式進行檢索,從網絡側獲取作為搜索結果的原始網頁;
從所述原始網頁中提取第一網頁,所述第一網頁為包含有音樂關系關鍵詞的網頁,多個音樂實體之間的關系即為音樂關系,包括翻唱、原唱、改編或原作曲關系;
判斷所述第一網頁中是否存在樣本句,所述樣本句為包含有至少兩個音樂實體的信息的句子;
通過對樣本句進行語義分析,確定所述至少兩個音樂實體之間的關系;
其中,從所述原始網頁中提取第一網頁,包括:
選取問答網頁和論壇網頁的網頁模板,對所述網頁模板的源代碼進行解析得到所述網頁模板的DOM樹;
抽取DOM樹結構的切詞特征、結構重復特征和標簽屬性語義特征,利用機器學習算法對所述切詞特征、結構重復特征和標簽屬性語義特征進行訓練,得到與所述網頁模板對應的網頁模型;
利用所述網頁模型進行預測,從原始網頁中識別出與所述網頁模板對應的問答網頁和論壇網頁;
從所述問答網頁和論壇網頁中查找所述音樂關系關鍵詞,將包含有所述音樂關系關鍵詞的問答網頁或論壇網頁作為所述第一網頁。
2.根據權利要求1所述的方法,其特征在于,判斷所述第一網頁中是否存在樣本句,包括:
將所述第一網頁中的文本切分為句子;
將所述句子與音樂庫中的音樂實體進行匹配,其中,所述音樂庫存儲有音樂實體數據和音樂實體信息;
當所述句子匹配到至少兩個音樂實體時,判定所述第一網頁中存在樣本句。
3.根據權利要求2所述的方法,其特征在于,所述音樂庫的建立,包括:
從所述原始網頁中提取音樂實體數據和信息;
對提取的所述音樂實體數據和信息進行去重和融合處理,得到每個音樂實體的實體數據及實體信息;
建立所述每個音樂實體的索引,生成所述音樂庫。
4.根據權利要求1-3任一所述的方法,其特征在于,通過對樣本句進行語義分析,確定所述至少兩個音樂實體之間的關系之后,還包括:
當所述至少兩個音樂實體之間為翻唱、原唱、改編或原作曲關系時,將所述至少兩個音樂實體的實體數據及關系信息對應存儲,建立音樂關系庫。
5.一種查詢處理方法,其特征在于,包括:
接收待檢索的問題;
當所述問題中包含有音樂信息時,根據所述音樂信息從音樂實體關系庫中查找對應的音樂實體關系信息,其中,音樂實體關系庫存儲有音樂實體數據及音樂實體之間的關系信息,其中,所述音樂實體數據及音樂實體之間的關系信息采用權利要求1-4任一所述的確定音樂實體關系的方法來執行;
返回所述對應的音樂實體關系信息。
6.根據權利要求5所述的方法,其特征在于,根據所述音樂信息從音樂實體關系庫中查找對應的音樂實體關系信息,包括:
根據音樂名稱查找與所述音樂名稱對應的音樂實體的原唱、翻唱、原作曲或改編曲的信息;
或者,
根據音樂名稱及作曲者查找與所述音樂名稱及作曲者對應的音樂實體的原作曲或改編曲的信息;
或者,
根據歌曲名稱及演唱者查找與所述歌曲名稱及演唱者對應的歌曲的原唱或翻唱的信息。
7.根據權利要求5或6所述的方法,其特征在于,在根據所述音樂信息從音樂實體關系庫中查找對應的音樂實體關系信息之后,所述方法還包括:
返回所述對應的音樂實體關系信息對應的音樂實體數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410749432.2/1.html,轉載請聲明來源鉆瓜專利網。





