[發明專利]一種通用型互聯網信息數據挖掘方法有效
| 申請號: | 201410180219.4 | 申請日: | 2014-05-01 |
| 公開(公告)號: | CN103970848A | 公開(公告)日: | 2014-08-06 |
| 發明(設計)人: | 劉莎 | 申請(專利權)人: | 劉莎 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400041 重慶市九*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用型 互聯網 信息 數據 挖掘 方法 | ||
技術領域
本發明涉及計算機及通信領域,特別是涉及到一種通用型互聯網信息數據挖掘方法。
背景技術
當互聯網越來越成為人們獲取各類信息的重要渠道時,互聯網上的信息存儲總量也在持續高速膨脹。根據IBM的研究,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。因此,隨著人類對互聯網信息和互聯網應用的依賴程度的增長,人們也越來越需要互聯網數據挖掘服務——從大量數據或者數據庫中提取有用信息的服務,來不斷改善和提高海量互聯網信息的應用效率。
雖然互聯網信息中包括了各種不同的數據類型(如文本、圖片、音頻、視頻、結構化數據等),但在以網頁形式出現的互聯網信息中,文字信息不僅是互聯網信息的最主要內容,也是面向用戶組織其它各類數據的基本工具。因此,互聯網信息數據挖掘服務的首要任務,是從各類以文字形式表達的結構化信息(如,各類結構化摘要)、半結構化信息(如,網站信息)、非結構化信息(如被鏈接的純文本信息)信息中提取對用戶有價值的數據挖掘結果。
數據挖掘的主要技術特點是對數據庫中的大量數據進行抽取、轉換、分析和其他模型化處理,并從中提取輔助用戶決策的關鍵性數據。但在海量的互聯網文字信息中,雖然結構化數據的價值密度最大,但數據量最?。欢虢Y構化網頁信息、非結構化(純文本)信息雖然價值密度最小,但數據量卻最大。因此,互聯網信息數據挖掘服務雖然市場巨大,但挖掘難度卻相當大,并還沒有形成真正具有普遍實用價值的系統方法。
本發明提供一種通用型互聯網信息數據挖掘方法,以實現從互聯網上結構化、半結構化、非結構化文字信息中進行全面、系統數據挖掘,提供對用戶有價值的挖掘結果。
發明內容
為了便于理解本發明的合理性和實用性,在說明本發明內容之前,需先說明一下本發明的基礎原理:通過對互聯網信息全文關鍵詞搜索結果進行的系統分析,我們發現了以下語用關鍵詞“雙十定律”——輸入任意主題關鍵字,其鎖定目標信息應用功能與效用范圍的常用頂層常用語用關鍵詞在10X10范圍以內。(見附圖1)
基于上述雙十定律, 本發明提供一種通用型互聯網信息數據挖掘方法,以實現從互聯網上結構化、半結構化、非結構化文字信息中進行全面、系統數據挖掘,提供對用戶有價值的挖掘結果。
其發明內容如下:輸出數據挖掘人機交互模板,從數據挖掘人機交互模板中的挖掘需求關鍵詞輸入模板中獲得數據挖掘中的主題關鍵詞、語用關鍵詞、語用關鍵詞項下的普通關鍵詞,從數據挖掘人機交互模板中的相關挖掘需求選擇欄中獲得用戶選擇的相關需求,以及直接輸入的特殊需求,獲得“數據挖掘”操作指令,并根據獲得的數據挖掘需求關鍵詞以及獲得的用戶選擇的挖掘需求,對互聯網信息進行數據挖掘操作,將數據挖掘結果輸出給相關需求方;
其中,所述的數據挖掘人機交互模板中預設有挖掘需求關鍵詞輸入模板、相關挖掘需求選擇項,以及挖掘需求自由輸入框;
其中,所述的數據挖掘人機交互模板中的挖掘需求關鍵詞輸入模板中預設有任意主題關鍵詞輸入框、任意主題關鍵詞常用頂層及下層語用關鍵詞的分類集成、數據形式分類,以及挖掘需求關鍵詞輸入模板使用方法說明;
其中,所述的任意主題關鍵詞常用頂層及下層摘要結構標簽的分類集成結果的產生方法可以與發布通用型互聯網信息發布系統中的互聯網信息通用摘要數據庫結構標簽的產生方法一致;
其中,所述的從數據挖掘人機交互模板的相關挖掘需求選擇項中獲得用戶選擇的相關需求可包括時間、空間、地域、數據來源等多種數據挖掘范圍選擇;
其中,所述的對互聯網信息“進行數據挖掘操作”中的挖掘對象可包括但不限于本發明所述通用型互聯網信息發布系統中存儲的結構化信息、半結構化信息、相關詳細信息、可鏈接的其它網站信息,以及通過中國發明專利《一種語用關鍵詞檢索方法與裝置》(發明專利申請號CN 102880632 A)中所述方法獲得的網頁信息全文關鍵詞檢索結果;
其中,所述的數據挖掘操作中的數據檢索,是指用數據挖掘人機交互模板的關鍵詞獲取模板中獲得的用戶輸入的所需挖掘信息的主題關鍵詞、用戶選擇的語用關鍵詞、語用關鍵詞選擇項下的普通關鍵詞或組合結果對包括本發明所述通用型互聯網信息發布系統中的相關信息及各類互聯網信息進行檢索;
其中,所述的數據挖掘操作包括但不限于數據檢索、統計、抽取、分析和相關模型化自動處理,以及根據用戶需求對信息挖掘結果的自動整理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉莎,未經劉莎許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410180219.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





