[發明專利]一種query標注方法、裝置及電子設備在審
| 申請號: | 201910302816.2 | 申請日: | 2019-04-16 |
| 公開(公告)號: | CN110110192A | 公開(公告)日: | 2019-08-09 |
| 發明(設計)人: | 吳健君;王銘 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/908;G06F17/21 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;項京 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 裝置及電子設備 關鍵詞集合 檢索 關鍵詞檢索 所屬領域 自動標注 數據庫 | ||
本發明實施例提供了一種query標注方法、裝置及電子設備,包括:獲取指定領域的關鍵詞集合,并且針對關鍵詞集合中的每個關鍵詞,從原始query數據庫中檢索出包含該關鍵詞的query,作為關鍵query,以及針對檢索出的關鍵query,將關鍵query的所屬領域標注為指定領域,由于通過關鍵詞檢索出關鍵詞query并標注,實現query的自動標注,提高了query標注的效率,降低了成本。
技術領域
本發明涉及數據分類技術領域,特別是涉及一種query標注方法、裝置及電子設備。
背景技術
隨著互聯網的普及和互聯網技術的發展,在日常生活和工作中,在遇到問題,或者在想查找某件自己喜歡的物品時,人們更愿意通過互聯網搜索相關問題的解決方案,或者詳細物品的詳細信息及購買鏈接,例如,當用戶對游戲感興趣時,可能會搜索“XX游戲好玩嗎?”,當用戶喜歡看視頻的觀眾可能會搜素“XX電視劇好看嗎”,當用戶喜歡汽車的用戶可能會搜素“XX汽車怎么樣?”。
技術上,用query(查詢)表示用戶搜索的內容,通過對用戶搜索的query進行分析,可以判斷出用戶的個人喜好或者個人特點,從而使得服務提供商可以更好地為用戶提供服務。
服務提供商可以將用戶搜索的query存儲在原始query數據庫中,為了確定數據庫中每條query的所屬領域,現有技術多采用人工標注的方式對原始數據庫中存儲的query進行標注,先通過人工確定每條query的領域,再將該條query的所屬領域標注為確定的領域。
發明人在實現本發明的過程中發現,現有技術至少存在如下問題:
通過人工進行query標注的方法,效率低,成本高。
發明內容
本發明實施例的目的在于提供一種query標注的方法,以提高query標注效率,節約成本。具體技術方案如下:
本發明實施例提供一種query標注方法,包括:
獲取指定領域的關鍵詞集合;
針對所述關鍵詞集合中的每個關鍵詞,從原始query數據庫中檢索出包含該關鍵詞的query,作為關鍵query;
針對檢索出的所述關鍵query,將所述關鍵query的所屬領域標注為所述指定領域。
進一步的,所述獲取指定領域的關鍵詞集合,包括:
獲取與指定領域相關聯的垂直網站;
從所述垂直網站中獲取包含預設屬性的詞語,作為關鍵詞;
將每個關鍵詞作為元素組合成關鍵詞集合。
進一步的,還包括:
將每個關鍵query作為元素組合成關鍵query集合;
針對所述關鍵query集合進行關聯挖掘,提取出所述關鍵query集合中的query頻繁項,所述query頻繁項為在所述關鍵query集合中存在概率大于第一閾值的詞組;
針對每個query頻繁項,從所述原始數據庫中檢索出包含該query頻繁項的目標query;
針對檢索出的所述目標query,將所述目標query的所屬領域標注為所述指定領域。
進一步的,所述針對所述關鍵query集合進行關聯挖掘,提取出所述關鍵query集合中的query頻繁項,包括:
針對所述關鍵query集合中的每個關鍵query,將該關鍵query拆分為關鍵詞和子query,所述拆分出的關鍵詞為所述關鍵詞集合中的關鍵詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910302816.2/2.html,轉載請聲明來源鉆瓜專利網。





