[發明專利]一種網絡信息垂直搜索與挖掘處理方法無效
| 申請號: | 201010121442.3 | 申請日: | 2010-03-10 |
| 公開(公告)號: | CN101807206A | 公開(公告)日: | 2010-08-18 |
| 發明(設計)人: | 金仲敏;張瑞黎;賈濤 | 申請(專利權)人: | 上海克而瑞信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 趙繼明 |
| 地址: | 200072 上海市閘*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 信息 垂直 搜索 挖掘 處理 方法 | ||
技術領域
本發明涉及一種網絡資源獲取方法,尤其是涉及一種網絡信息垂直搜索與挖掘處理方法。
背景技術
普通的網頁搜索比如google是一種泛型搜索,整個結構的最小單位為網頁,并不會對網頁當中的內容做數據結構化分析和語義分析。
前的部分房地產行業垂直技術雖然可以做到一定程度的網頁內容分析和數據結構化處理,但仍然缺乏足夠深入的信息挖掘,面對需要和地產行業知識緊密相關且需要一定邏輯推理和公式計算的信息提取仍然有很多待解決的問題。而本專利提供的方法旨在解決這一系列問題,諸如新房網絡信息中通過復雜公式計算交易相關信息等。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種成本低、效率高、計算功能強大、靈活性好的網絡信息垂直搜索與挖掘處理方法。
本發明的目的可以通過以下技術方案來實現:
一種網絡信息垂直搜索與挖掘處理方法,其特征在于,該方法包括以下步驟:
1)獲取網頁信息;
2)對獲取的網頁信息進行結構化處理;
3)對經處理后的數據進行邏輯推理和計算。
所述的步驟1)獲取網頁信息步驟如下:
11)下載并保存任務起始頁面信息;
12)分析頁面信息、分配并保存相關任務;
13)啟動任務處理單元,獲取任務;
14)各單元執行各自任務,下載并保存相關頁面;
15)分析頁面信息、分配并保存其他相關任務;
16)循環執行13)-15)步驟,直到所有任務處理結束后任務處理單元逐個結束工作,獲得Html文件并將其保存。
所述的步驟2)對獲取的網頁信息進行結構化處理步驟如下:
21)讀取下載的Html文件信息;
22)將Html文件轉為Dom對象,供分析;
23)將Dom對象轉為XML數據結構,保存到數據庫中;
24)批量分解XML數據到數據庫表格中。
所述的步驟3)對經處理后的數據進行邏輯推理和計算步驟如下:
31)系統第一次運行將所有歷史數據下載并結構化分析處理,所有狀態相關數據保存到數據庫中;
32)下載所有步驟2)處理后的數據;
33)設定任務驅動規則,判斷步驟2)處理后的數據的關鍵指標和歷史狀態是否一致,若為否,將步驟2)處理后的數據與歷史狀態對比,得出變化過程。
與現有技術相比,本發明具有以下優點:
1)成本低、效率高、計算功能強大、靈活性好,并采用分布式多線程方式,具有良好的擴展性;
2)稍作調整后,能很快應用于多種行業的不同垂直搜索領域。
附圖說明
圖1為本發明的流程圖;
圖2為本發明的硬件結構示意圖。
具體實施方式
下面結合附圖和具體實施例對本發明進行詳細說明。
實施例
如圖1所示,一種網絡信息垂直搜索與挖掘處理方法,該方法包括以下步驟:
1)獲取網頁信息;
2)對獲取的網頁信息進行結構化處理;
3)對經處理后的數據進行邏輯推理和計算。
1、信息提取
本發明適用于絕大多數網站前端應用,并不會直接訪問對方后臺數據庫系統。
主要技術規范和提取方式包括:
a)標準http協議方式訪問;
b)可控制多線程下載網頁數據;
c)根據預設定訪問路徑規則決定子頁面是否下載,減少網絡負載和目標服務器壓力;
d)應用服務器分布式協同下載,增強工作效率。
主要工作流程為:
11)下載并保存任務起始頁面信息;
12)分析頁面信息、分配并保存相關任務;
13)啟動任務處理單元,獲取任務;
14)各單元執行各自任務,下載并保存相關頁面;
15)分析頁面信息、分配并保存其他相關任務;
16)循環執行13)-15)步驟,直到所有任務處理結束后任務處理單元逐個結束工作,獲得Html文件并將其保存。
2、結構化處理
結構化處理是指把軟件下載的頁面信息根據房地產專業角度來分析解釋,把頁面信息轉為專業數據表格的過程。轉換后的數據表格待做進一步的挖掘和分析使用,一般都保存在數據庫系統中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海克而瑞信息技術有限公司,未經上海克而瑞信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010121442.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種核電廠現場輔助施工系統及其實現方法
- 下一篇:多端口式連接器
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





