[發明專利]大規模非結構化數據提取方法、其系統、分布式數據管理平臺在審
| 申請號: | 201710301596.2 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107122472A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 江有歸;封雷;劉東升 | 申請(專利權)人: | 杭州泰一指尚科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06N3/04 |
| 代理公司: | 北京科家知識產權代理事務所(普通合伙)11427 | 代理人: | 莫文新 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規模 結構 數據 提取 方法 系統 分布式 數據管理 平臺 | ||
技術領域
本發明涉及數據處理技術領域,尤其涉及大規模非結構化數據提取方法、其系統、分布式數據管理平臺。
背景技術
隨著社會的飛速發展,如今各個行業的信息、數據量都呈現爆炸性增長的趨勢。在企業和公共事業中,各類業務變得越來越復雜,信息化水平迅速提高,進入了數據化時代。因此,數據成為了最重要的資產之一,其不僅僅體現在常規業務的操作需求,更為事業發展的方向提供數據支持,起到了重要的決策作用。
與此同時,傳統的數據類型的占比已逐漸下降。隨著業務需求以及功能多樣化意味著非結構化數據已經占據了較大比例?,F有對非結構化數據的提取通常使用文件服務器系統記性管理,并人工篩選統籌分類等初級解決方案。
該類方案操作復雜、準確度低,僅能應對簡單的數據存儲需求,且對非結構化數據的索引、分類、屬性等高級特性的幾乎無法支持。由于大數據具有數量大、運行速度快、分類多等特點,造成了大量異構和非結構化問題,使得許多現有的數據分析和挖掘的優秀算法工具,無法適用于非結構化大數據。這對于非結構化大數據的數據挖掘和利用造成了障礙。
深度學習作為當前流行的通用工具適合解決上述大規模非結構化數據提取問題。在深度學習中,可以按照輸入自動進行特征的學習,神經網絡中的每層都將學習到對應的特征,低層網絡學習到的特征抽象化組合后構成高層網絡出入。這種深度學習的方法可以應用在圖片分析等其他領域都體現出了超強的性能,近幾年,深度學習及其神經網絡模型已成為了特征抽取的重要方法。非結構化數據可以將其維度作為神經網絡模型的輸入,最后將高效地提取出特征并進行分類。
為了更好的實現大規模非結構化數據的分析,對于大規模的非結構化數據按照特征類別進行提取分類的需求越來越強烈。如何結合深度學習的強大功能,以滿足這樣的提取分類需求是一個有待解決的問題。
發明內容
鑒于上述現有技術的不足之處,本發明的目的在于提供大規模非結構化數據提取方法、其系統、分布式數據管理平臺,旨在解決現有技術中大規模非結構化數據的提取分類的問題。
為了達到上述目的,本發明采取了以下技術方案:
一種大規模非結構化數據提取方法,其中,所述方法包括:
獲取若干非結構化數據對象,并將所述非結構化數據對象的特征抽象為屬性;
使用所述非結構話數據對象的所有屬性對應的多維向量表示所述非結構化數據對象;
將所述多維向量作為卷積神經網絡輸入的基本單元;
通過卷積神經網絡的卷積層學習所述訓練數據的局部屬性;
通過卷積神經網絡的池化層將所述局部屬性進行統計操作,獲得第二特征向量;
將所述第二特征向量輸入所述卷積神經網絡的全連接層,利用分類器獲得非結構化數據分類結果。
所述的方法,其中,所述方法還包括:訓練所述卷積神經網絡;
所述訓練所述卷積神經網絡具體包括:
設卷積神經網絡中可訓練參數為:θ=(W1,W2),其中W1為卷積核的參數,應用如下優化目標函數:
其中,T為訓練的樣本數量;
構建p(i|x,θ)作為似然函數,在給定x,θ的情況下,輸出提取的數據的屬性類別為i的概率通過如下算式計算:
使用梯度下降的方法求解可訓練參數,W1,W2的值隨機初始化,通過向后傳播算法求導。
所述的方法,其中,所述通過卷積神經網絡的卷積層學習所述訓練數據的局部屬性,具體包括:
通過若干個長度與所述多維向量的維度相同的卷積單元學習所述非結構對象的屬性特征;
其中,卷積過程通過如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷積單元的權重,b表示其偏移量,f為非線性激活函數;
對輸入的所有多維向量均進行所述卷積過程,獲得第一特征向量;所述第一特征向量為:c=[c1,c2,…,ci,...,cn]。
所述的方法,其中,所述通過卷積神經網絡的池化層將所述局部屬性進行統計操作,獲得第二特征向量,具體包括:
進行最大池化操作,獲取所述第一特征向量的特征值,所述特征值為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州泰一指尚科技有限公司,未經杭州泰一指尚科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301596.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種酒店特色點評抽取的方法
- 下一篇:一種Excel數據的導入導出方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





