[發明專利]一種網頁信息數據挖掘通用方法在審
| 申請號: | 201810254857.4 | 申請日: | 2018-03-26 |
| 公開(公告)號: | CN108509571A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 劉莎 | 申請(專利權)人: | 劉莎 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400000 重慶市九*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁信息 關鍵詞搜索 數據挖掘 全文關鍵字 搜索結果 通用數據 系統分析 信息分類 信息特征 摘要提取 系統化 權重 通用 挖掘 應用 | ||
本發明在對網頁信息全文關鍵字搜索結果進行信息特征系統分析的基礎之上,針對網頁信息數據挖掘中主要難點:信息分類及其權重、關鍵詞搜索及其摘要提取,提供了系統化的全新解決方案。該方法不僅是網頁信息通用數據挖掘的系統方法,并且在根本改善網頁信息全文關鍵詞搜索領域具有重要和普遍的應用價值。
技術領域
本發明涉及計算機及通信領域,特別是涉及互聯網信息數據挖掘通用方法。
背景技術
在數據挖掘領域,面向各類用戶提供互聯網信息數據挖掘服務,無疑是數據挖掘服務的最大應用市場。但網頁信息的80%左右是半結構或無結構文本信息,導致互聯網信息數據挖掘服務質量差,效率低下。
如何才能根本改善網頁信息的通用化分類水平及摘要抽取質量,是互聯網信息數據挖中迫切需要解決的重大問題。為了解決網頁信息的數據挖掘這一難點,提高互聯網信息數據挖掘質量,發明人對網頁信息全文關鍵字搜索結果進行了信息特征分析,發現了互聯網信息組織結構的雙十定律:(參見圖1)。無論在全文關鍵詞搜索框中輸入任意關鍵字(例如:國家發改委、蘋果公司、智能手機、云計算、普金、世界杯、歐美大片……),其相關信息的高頻頂層分類均在10項左右。例如,任意主題關鍵字的相關信息高頻頂層分類結果均包括:新聞、公告、知識、產品、服務、論壇、點播/下載、論壇、微博/微信、大黃頁。并且,每個信息分類下的常用高頻信息組織結構詞也在10項左右。
例如:招聘、應聘、征婚、交友等不同功能信息的常用高頻通用組織結構詞均包括:交往目的、年齡、性別、學歷、職業、性格、愛好.....。因此,均屬于“人際交往”類信息。
根據上述互聯網信息組織雙十定律,本發明提供一種網頁信息通用數據挖掘方法(包括各種非結構化文本信息),以提高互聯網信息數據挖掘通用服務的質量與效率。
發明內容
本發明提供一種網頁信息數據挖掘通用方法,以根本改善互聯網信息數據挖掘通用服務質量與效率。其主流程如下:
獲得數據挖掘組織結構詞及數據挖據內容關鍵詞;
用獲得的數據挖掘組織結構詞匹配網頁信息全文關鍵詞;
根據數據挖掘組織結構詞與網頁信息全文關鍵詞的匹配結果判斷網頁信息類型;
在已確定信息類型的網頁信息中,用數據挖掘組織結構詞、數據挖據內容關鍵詞匹配網頁信息全文關鍵詞以及獲得關鍵詞參數;
根據匹配成功的網頁信息組織結構詞、網頁信息內容關鍵詞以及獲得的關鍵詞參數抽取和整理網頁信息摘要;
用獲得的與數據挖掘目的相匹配的數據挖掘算法處理抽取到的網頁信息摘要;
將網頁信息摘要處理結果轉換為用戶所需的數據挖掘可視化結果并進行顯示。
其中,
所述的數據挖掘組織結構詞,是指從數據挖掘需求方獲得的互聯網信息通用頂層組織結構詞及相關下層組織結構詞。
所述的數據挖據內容關鍵詞,是指從數據挖掘需求方獲得的數據挖掘組織結構詞下的關鍵詞。
所述的網頁信息全文關鍵詞,是指任意網頁文字信息中的可直接檢索到的關鍵詞,但不包括關鍵詞屬性標記。
所述的網頁信息組織結構詞,是指用數據挖掘方提供的數據挖掘組織結構詞檢索到的網頁信息關鍵詞。
所述的網頁信息內容關鍵詞,是指用數據挖掘方提供的數據挖掘內容關鍵詞檢索到的網頁信息關鍵詞。
所述的關鍵詞參數,是指在進行網頁信息摘要抽取和整理時為關鍵詞匹配結果提供的輔助性參數。
所述的網頁信息類型,是指可對任意網頁信息進行通用分類的網頁信息類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉莎,未經劉莎許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810254857.4/2.html,轉載請聲明來源鉆瓜專利網。





