[發明專利]非結構化數據處理方法及系統有效
| 申請號: | 201410054773.8 | 申請日: | 2014-02-18 |
| 公開(公告)號: | CN103761337B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 葉向維 | 申請(專利權)人: | 上海錦恩信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海弼興律師事務所31283 | 代理人: | 胡美強,王婧荷 |
| 地址: | 201308 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 數據處理 方法 系統 | ||
技術領域
本發明涉及一種非結構化數據處理方法及系統。
背景技術
近十來年,電子商務和網絡服務技術的快速發展,使得其中包含的信息數量迅速提高,越來越多地涉及到海量信息的處理,這對于信息處理而言可以說是一個新的挑戰。在這些領域中的很多應用場合中不但具有大量的結構化數據,還產生了更大容量的非結構化數據。由于非結構化數據的處理相對而言會消耗更多的計算資源,在傳統的數據分析系統中通常較為忽視非結構化數據的價值。
以在線視頻網站為例,系統記錄了用戶的點擊視頻,視頻類型、觀看時段、觀看方式等結構化數據,同時還記錄有更多的用戶評價、視頻討論、評級等非結構化數據。現有的數據挖掘工具難以完成對于非結構化數據中的特征的挖掘,而要綜合其他技術手段來實現非結構化數據的挖掘不僅在技術上較為復雜,還需要耗費大量的計算時間和資源。此外,主要面向結構化數據的現有數據處理方法通常是是基于已有的系統特征進行數據分析,而在大量的實際需求中企業對于數據挖掘的需求會不斷更新。根據更新的需求重新設置整個數據處理的方法難免消耗資源、推高成本,因此電子商務等領域的企業迫切需要一種能夠以較靈活地適應于不斷改變的數據挖掘的需求的數據處理方法。
發明內容
本發明要解決的技術問題是為了克服現有技術中對于非結構化數據的挖掘需要消耗大量的計算資源和時間,并且無法靈活適用于不斷改變的需求,從而導致數據挖掘的效率較低成本過高的缺陷,提出一種非結構化數據處理方法及系統。
本發明是通過下述技術方案來解決上述技術問題的:
本發明提供了一種非結構化數據處理方法,其特點在于,包括以下步驟:
S1、設置多個特征模板,每個特征模板包括關鍵詞;
S2、分別使用各個特征模板掃描存儲有多條非結構化數據的一數據庫,針對各條非結構化數據分別判斷其中是否記載有和各個特征模板一致的內容,并將判斷結果為是的特征模板作為各條非結構化數據匹配的特征模板記錄;
S3、生成與該多條非結構化數據分別一一對應的多個模板向量,每個模板向量具有一一對應于該多個特征模板的多個維度,該多個維度中,各條非結構化數據匹配的特征模板對應的維度的標量值為1、不匹配的特征模板對應的維度的標量值為0。
每個特征模板包括關鍵詞,而特征模板也可以部分或全部采用僅包括關鍵詞的特征模板。在步驟S1中所設置的多個特征模板可以理解為是針對某種數據挖掘需求的,每個特征模板可以包括一個或數個關鍵詞。并且,容易理解地,若針對的數據挖掘需求的范圍非常廣,則應當在步驟S1中設置更大數量的特征模板。在步驟S2中,對于每條非結構化數據,均需要判斷其中是否記載有和特征模板一致的內容,從而確定和各條非結構化數據匹配的特征模板有哪些。本領域技術人員應當理解,該多條非結構化數據即本發明的非結構化數據處理方法所面對的處理對象,且在通常情況下該多條非結構化數據的數量應當是較為龐大的。
在步驟S3中進一步地根據非結構化數據生成模板向量,實質上就建立了和非結構化數據一一對應的模板向量,模板向量的維度對應于各個特征模板。這也就意味著,當需要對該多條非結構化數據進行數據挖掘等分析時,只需要將數據挖掘中的需求以特征模板的形式表達,就能夠基于對模板向量的處理完成數據分析。
更具體地,數據挖掘中通常是基于某一個特征進行挖掘,而在很多情況下需要對于在含義上相互有關聯的多個特征進行挖掘。而在對于原始的非結構數據根據上述方法進行處理后,實質上就能夠將數據挖掘中涉及的特征的關聯性轉換為特征模板的關聯性并且充分地反映在模板向量中。模板向量具有明確的結構,用于挖掘、分類等數據分析過程中,毫無疑問地在計算時間和計算資源的消耗上都會顯著優于直接對于無結構數據進行分析。本領域技術人應當理解,在上述方法的實際實施過程中,非結構化數據的數量、特征模板的數量越是龐大,越能夠體現出在成本和效率上的優勢。
較佳地,S2還包括:記錄各條非結構化數據中和各個特征模板一致的內容的出現次數;
S3由S3a替代,S3a為:生成與該多條非結構化數據分別一一對應的多個模板向量,每個模板向量具有一一對應于該多個特征模板的多個維度,每個模板向量的多個維度的標量值分別為在對應的非結構化數據中和對應的該多個特征模板一致的內容的出現次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海錦恩信息科技有限公司,未經上海錦恩信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410054773.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車起動機機殼多凸臺一次成型模具
- 下一篇:一種非尼古丁戒煙器





