[發明專利]一種網絡資源搜索訓練系統在審
| 申請號: | 201710368523.5 | 申請日: | 2017-05-22 |
| 公開(公告)號: | CN107239516A | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 李文華 | 申請(專利權)人: | 江蘇德勝智業信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇創專利代理事務所(普通合伙)32273 | 代理人: | 王華 |
| 地址: | 212415 江蘇省鎮江市句容*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡資源 搜索 訓練 系統 | ||
技術領域
本發明主要涉及網絡數據檢索與抓取系統。
背景技術
隨著互聯網的快速發展,互聯網上的數據資源呈幾何數字上升,對于特定信息的目標資源的檢索,效率越來越低,而且檢索得到的資源與目標資源的相近度無法確定,另外不同數據平臺下的檢索結果出現不一致情況,檢索機制的不同造成實際結果與真實結果的差值無法縮小,進而造成搜索引擎的效率降低,成本高,而且無法匹配實時在變動的互聯網海量資源。
發明內容
針對上述現有存在的問題和不足,本發明提供了一種網絡資源搜索訓練系統,網絡資源中的目標資源檢索效率更高,且具有自我更新特征關鍵信息權重值,從而提高了搜索精準度和效率。
發明內容:為解決上述技術問題,本發明所采用的技術手段為:一種網絡資源搜索訓練系統,包括信息采集模塊,信息內容解析與分類模塊,檢索抓取模塊和訓練模塊,其中:
所述信息采集模塊,收集并提取用戶待檢索資源關鍵信息,并根據關鍵信息生成關聯信息,并將該關聯信息與用戶進行交互并記錄修改信息,同時對關鍵信息和關聯信息進行權重排序和確定,確定后的特定檢索信息發送至檢索抓取模塊;
所述檢索抓取模塊,從網絡上抓取包含關鍵信息或關聯系信息的網頁信息,并將數據發送至信息內容解析模塊;
所述信息內容解析模塊,首先對信息內容進行分類,然后計算抓取后的網頁信息中關鍵信息的相近度和出現頻率,并根據相近度和出現頻率計算各關鍵信息的在關鍵信息類別集合中的貢獻比值;
所述訓練模塊,提取信息內容解析模塊計算的各關鍵信息的權重,并按照權重大小的順序選取部分關鍵信息作為特征關鍵信息,并對其進行歸一化處理;繼續使用特征關鍵信息作為檢索依據進行再次檢索得到目標資源;
所述信息內容解析模塊中關鍵信息的權重通過公式(1)計算得到:
w(t,i)為特征關鍵信息t在關鍵信息類別i中的權值,TF(t,i)表示特征關鍵信息在關鍵信息類別i中的頻次,Cs為所有關鍵信息類別集合,t為信息類別的序號,i為當前信息類別下的關鍵信息的序號,F(i)表示特征關鍵信息t在該關鍵信息類別i中出現的頻次,F(Cs)表示特征關鍵信息t在所有標記塊中出現的總次數,n表示信息類別的總個數。
本發明對關鍵信息進行集合化和分類處理,并對各關鍵信息的近似度和在各自集合下的貢獻比值進行優化模擬,得到關鍵信息的權重值從而以此為依據進行歸一化處理進行訓練生成得到特征關鍵信息,并作為訓練后的搜索依據進行檢索得到精確度更高的目標資源。本發明考慮了關鍵信息相近度和權重比值,經過數學公式進行模擬得到更精準的目標資源。
附圖說明
圖1為本發明所述系統的邏輯流程圖。
具體實施方式
下面結合附圖和具體實施例對本發明內容作進一步說明。
如圖1所示,本發明的網絡資源搜索訓練系統,主要包括信息采集模塊,信息內容解析與分類模塊,檢索抓取模塊和訓練模塊。對于互聯網上海量的數據資源內容,本系統對資源內容的類型進行了劃分,可以以文字、視頻、音頻、圖像、字段字符,或以內容生成格式為依據進行劃分。使用者在確定需要搜索的目標關鍵信息后,本系統提取該關鍵信息內容并與系統的資源內容的比對形成一定規則下的關鍵信息集合,同時對相關聯的信息進行修正并與使用者進行交互確認,確定后的關鍵信息,由本系統抓取模塊在網絡上進行網頁信息的檢索和抓取,抓取得到的數據送至信息內容解析模塊進行處理。
信息內容解析模塊,首先對信息內容進行分類,然后計算抓取后的網頁信息中關鍵信息的相近度和出現頻率,并根據相近度和出現頻率計算各關鍵信息的在關鍵信息類別集合中的貢獻比值;
所述訓練模塊,提取信息內容解析模塊計算的各關鍵信息的權重,并按照權重大小的順序選取部分關鍵信息作為特征關鍵信息,并對其進行歸一化處理;繼續使用特征關鍵信息作為檢索依據進行再次檢索得到目標資源;
所述信息內容解析模塊中關鍵信息的權重通過公式(1)計算得到:
w(t,i)為特征關鍵信息t在關鍵信息類別i中的權值,TF(t,i)表示特征關鍵信息在關鍵信息類別i中的頻次,Cs為所有關鍵信息類別集合,t為信息類別的序號,i為當前信息類別下的關鍵信息的序號,F(i)表示特征關鍵信息t在該關鍵信息類別i中出現的頻次,F(Cs)表示特征關鍵信息t在所有標記塊中出現的總次數,n表示信息類別的總個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇德勝智業信息技術有限公司,未經江蘇德勝智業信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710368523.5/2.html,轉載請聲明來源鉆瓜專利網。





