[發明專利]非結構化源數據的云端自主邏輯歸檔方法有效
| 申請號: | 201811273991.5 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109582756B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 張超;韓成;蔣振剛;于翠紅;薛耀紅;李華;權巍;胡漢平;耿雪娜 | 申請(專利權)人: | 長春理工大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35 |
| 代理公司: | 吉林長春新紀元專利代理有限責任公司 22100 | 代理人: | 王薇 |
| 地址: | 130022 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 數據 云端 自主 邏輯 歸檔 方法 | ||
本發明涉及一種非結構化源數據的云端自主邏輯歸檔方法,其特征在于:根據非結構化數據的自然語言描述內容,云端存儲系統即可對其作出自主邏輯歸檔處理,對非結構化數據的描述內容進行抽離處理,利用句法分詞、語義分析、相似度比較等自然語言處理操作,并自動為其分配相關的分詞標簽、簡短摘要;其解決了云端存儲過程過分依賴于主觀操作的現實問題、低效問題;有效地提高了云端存儲系統對自然語言的理解能力,從而有利于非結構化數據的云端自主邏輯歸檔。
技術領域
本發明涉及一種非結構化源數據的云端自主邏輯歸檔方法,屬于非結構化數據云存儲技術領域。
背景技術
云存儲以數據存儲和管理服務為核心單元,利用集群部署、分布式文件系統、異構整合、網絡互連等技術手段構造存儲環境,通過開放API、RESTful或Web Service接口的形式對外提供存儲服務、訪問服務、控制服務等操作事件,以解決常規存儲系統難以柔性擴展、基礎設施臃腫、異構兼容性差等眾多難題。分布式文件系統Ceph作為云計算生態系統中得到公認的存儲解決方案,以其獨有的功能架構占據了相當重要的主導地位,它由數據用戶客戶端、元數據服務集群、對象存儲集群、集群監視器四部分組成。
非結構化數據具有“單次寫入,反復讀取”的特點,并且非結構化數據存在數量眾多、格式多樣、動態變化、組織松散、內容多源等固有屬性,非結構化數據包括:視頻文件、音頻文件、圖片文件、模型文件、字體文件等等。關于非結構化數據分類存儲與歸檔方面的研究工作和技術方案尚未見顯著成果,這不僅與用戶操作的主觀隨意性相關,更與非結構化數據自身內容的未知性相關。也正是因為如此,現階段對非結構化數據的分類存儲與歸檔仍將主要以借助人為干預的方式實現,而不是根據非結構化數據本身所包含的實際內容,自動地識別出該非結構化數據應該屬于哪種歸檔分類并將它歸入其中。非結構化數據雖然不能簡單地以數學解析式來表達,但卻可以借助元數據(metadata)對非結構化數據進行對象內容和信息特征的結構化描述,即:云存儲系統利用結構化數據描述非結構化數據。
非結構化素材資源的邏輯歸檔作為基礎性支撐服務,更有利于對非結構化數據進行合理安排和簡化索引,使云存儲系統對非結構化數據的邏輯歸檔具有自主決策能力,并能大幅度提高非結構化數據的高可用性、易遷移等特性。為此,本發明立足于非結構化數據的云端自主邏輯歸檔,將它作為云端智能化存儲的輔助與補充,即:不改變非結構化數據的原有存儲方式和存儲位置,而以邏輯歸檔的方式實現非結構化數據的自主管理。
發明內容
本發明的目的在于提供一種非結構化源數據的云端自主邏輯歸檔方法,旨在解決云端存儲過程過分依賴于主觀操作的現實問題、低效問題;為了增強云端存儲系統的智能化自主邏輯歸檔水平,該方法通過對非結構化數據的描述內容進行抽離處理,利用句法分詞、語義分析、相似度比較等自然語言處理操作,有效地提高了云端存儲系統對自然語言的理解能力,從而有利于非結構化數據的云端自主邏輯歸檔。為了使非結構化數據的存在更具實際意義,不可避免地應為其添加必要的描述性內容,從而說明非結構化數據所包含的內容、用途等信息。
本發明的技術方案是這樣實現的:非結構化源數據的云端自主邏輯歸檔方法,其特征在于:根據非結構化數據的自然語言描述內容,云端存儲系統即可對其作出自主邏輯歸檔處理,并自動為其分配相關的分詞標簽、簡短摘要;該方法的具體實現步驟如下:
步驟S1、云端存儲過程按原有存儲策略對非結構化數據UD進行物理存放,且非結構化數據存儲表DST自動生成非結構化數據索引值UID;
步驟S2、云端存儲過程將非結構化數據UD的自然語言描述內容DESC傳遞給邏輯歸檔處理過程,并在邏輯歸檔表LST中新添記錄LNM,將記錄LNM的非結構化數據ID字段賦值為非結構化數據索引值UID,將記錄LNM的數據內容描述字段賦值為自然語言描述內容DESC;
步驟S3、邏輯歸檔處理過程將自然語言描述內容DESC和句子數N作為參數傳遞給HanLP的過程函數extractSummary;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春理工大學,未經長春理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811273991.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





