[發明專利]一種基于用戶查詢日志實時發現熱點視頻的方法和裝置在審
| 申請號: | 201710083558.4 | 申請日: | 2012-12-07 |
| 公開(公告)號: | CN106909638A | 公開(公告)日: | 2017-06-30 |
| 發明(設計)人: | 李力行;姚鍵;潘柏宇;盧述奇;尹玉宗 | 申請(專利權)人: | 合一網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙)11277 | 代理人: | 劉新宇 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 查詢 日志 實時 發現 熱點 視頻 方法 裝置 | ||
1.一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:
S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;
S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;
S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;
S4、根據步驟S2和S3得到的次數值采用逐點互信息的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;
S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;
S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。
2.根據權利要求1所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于所述步驟S4中所述逐點互信息的方法的具體計算方法如下:
任給兩個原子詞A、B,它們的關聯度表示為
其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數。
3.根據權利要求2所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于采用最大似然估計來計算次數。
4.一種基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于包括如下模塊:
切詞模塊,用于將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;
原子詞出現次數統計模塊,用于統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;
原子詞共現次數統計模塊,用于根據所述原子詞出現次數統計模塊得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;
關聯度計算模塊,用于根據所述原子詞出現次數統計模塊和所述原子詞共現次數統計模塊得到的次數值采用逐點互信息的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;
復合詞生成模塊,用于將所述關聯度計算模塊所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;
熱點關鍵詞確定模塊,用于在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合一網絡技術(北京)有限公司,未經合一網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710083558.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:立體椅子(歐式沙發床椅)
- 下一篇:立體椅子(靠背圈椅)





