[發明專利]網頁搜集推薦方法和裝置有效
| 申請號: | 201610102827.2 | 申請日: | 2016-02-24 |
| 公開(公告)號: | CN105740460B | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 劉耀;龔幸偉 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 王增鑫 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 搜集 推薦 方法 裝置 | ||
1.一種網頁搜集推薦方法,其特征在于,包括:
獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;
根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;
獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;
確定出每個擴展網頁與所述語義結構之間的相似度;
根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;
周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;
對最后一個周期更新的各種子網頁進行排序和推薦;
所述周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,具體包括:
對于所述周期性中的一個周期,該周期內根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,包括:
對于上一個周期更新的每個種子網頁,根據該種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念后添加到上一個周期進化的語義結構中,得到本周期進化的語義結構;
獲取上一個周期更新的各種子網頁所鏈接的多個網頁,作為本周期更新的多個擴展網頁;
確定出本周期更新的每個擴展網頁與所述本周期進化的語義結構之間的相似度;
根據相似度不低于第一相似度閾值的本周期更新的擴展網頁,更新上一個周期更新的種子網頁,得到本周期更新的種子網頁。
2.根據權利要求1所述的方法,其特征在于,所述根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念,包括:
確定出每個種子網頁的每個句子的詞語集合;以及
對于該種子網頁中每個句子的詞語集合,計算出該詞語集合中一對相鄰詞語的出現關聯度,并判斷該出現關聯度是否低于預設的出現關聯度閾值;若否,則將該對相鄰詞語合并為短語后,繼續計算該短語與后續相鄰詞語的出現關聯度,并繼續判斷該短語與后續相鄰詞語的出現關聯度是否低于所述出現關聯度閾值,直到遍歷該詞語集合的所有詞語,得到該句子的語義概念;
將該種子網頁中各句子的語義概念,組成該種子網頁的語義概念。
3.根據權利要求1所述的方法,其特征在于,所述獲取各種子網頁所鏈接的多個網頁之前,還包括:
提取出各種子網頁中的鏈接文本;
確定出每個鏈接文本的詞語集合;
對于每個鏈接文本,根據該鏈接文本的詞語集合,確定出該鏈接文本與所述語義結構之間的相似度;以及
所述獲取各種子網頁所鏈接的多個網頁,具體包括:
獲取相似度不低于第二相似度閾值的鏈接文本所鏈接的網頁。
4.根據權利要求1所述的方法,其特征在于,所述確定出每個擴展網頁與所述語義結構之間的相似度,包括:
對于每個擴展網頁,分別計算出該擴展網頁與所述語義結構中的各語義概念簇之間的相似度;
根據計算出的各相似度,確定出該擴展網頁與所述語義結構之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610102827.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:端面成形密封的板式熱交換器
- 下一篇:訂書機





