[發明專利]一種基于語義標注的異構數據分布式存儲方法在審
| 申請號: | 201710608703.6 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107515902A | 公開(公告)日: | 2017-12-26 |
| 發明(設計)人: | 吳含前;沈鳴飛;顧鵬;陳鋼 | 申請(專利權)人: | 蘇州希格瑪科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 蘇州華博知識產權代理有限公司32232 | 代理人: | 彭益波 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 標注 數據 分布式 存儲 方法 | ||
技術領域
本發明涉及一種基于語義標注技術和分布式存儲技術,特別是涉及一種基于語義標注的異構數據分布式存儲方法。
背景技術
隨著互聯網的高速發展,數據量每天以指數的遞增,數據的來源也更加豐富和復雜,文本數據、音頻數據、視頻數據等數據格式也越來越多,實現異構的數據融合和存儲的問題日益突出,但傳統的數據融合,只是將異構數據進行統一存儲并不具有語義。研究一種基于語義標注的異構數據分布式存儲方法,這將實現異構數據的高度語義融合,對異構數據資源的高效檢索起到關鍵性的作用。
目前語義標注的方法有很多,主要是根據資源屬性、資源內容、資源內容特征和特定的資源領域本體語義進行標注。
基于語義標注的異構數據主要是通過自定義的方式進行異構數據源的標注說明,語義標注信息邏輯上采用大表的方式進行存儲,但物理上是分布式存儲,如何將異構數據與分布式存儲結合起來是現階段亟需解決的問題。
發明內容
為了解決上述技術問題,本發明提出了一種基于語義標注的異構數據分布式存儲方法。
為了達到上述目的,本發明的技術方案如下:
一種基于語義標注的異構數據分布式存儲方法,包括以下步驟:
1)建立異構數據源語義標簽庫和異構數據信息語義標簽庫;
2)建立異構數據存儲單元內容;
3)將異構數據源語義標簽庫和異構數據信息語義標簽庫動態存儲在.META.表信息中,將數據源語義和數據信息語義進行關系映射存儲;
4)動態存儲數據單位內容于存儲塊中;
5)對標注好的異構數據的語義信息進行語義相似度計算;
6)進行異構數據融合信息存儲,將計算出的相似度值存儲在.INFO.信息表中,將相似度值和異構數據的數據信息進行關系映射存儲;
7)建立基于語義庫的分布式數據信息檢索信息;
8)將存儲數據檢索信息存儲在.INDEX.表中。
本發明實現了數據融合存儲,特別是異構數據的融合存儲,存在存儲數據互相獨立和異構數據,不具有語義關聯性,基于語義標注的異構數據分布式存儲系統,即解決了數據難融合不具語義的問題,又解決了異構大數據分布式存儲問題。本發明提出了一種對數據源進行語義標注的方法和數據源語義相似度計算的技術,彌補了市場上此項功能的空白,采用分布式存儲語義標簽庫和異構數據單元內容,實現了異構數據的分布式存儲。
在上述技術方案的基礎上,還可做如下改進:
作為優選的方案,步驟1)具體包括以下步驟:
1.1)語義標簽庫創建;
1.2)異構數據源輸入;
1.3)數據源語義解析和/或標注數據源名稱和/或標注數據源類別和/或標注數據源格式和/或標注數據源時間;
1.4)數據信息語義解析和/或標注數據名稱和/或標注數據歸屬信息和/或標注數據描述和/或標注數據時間。
采用上述優選的方案,操作便捷。
作為優選的方案,步驟4)還包括以下內容:
當異構數據源容量超過存儲塊的大小時,則系統自動將數據源信息切分為若干小塊,每塊的容量不大于存儲塊的大小。
采用上述優選的方案,便于動態存儲。
作為優選的方案,存儲塊的大小為64M。
采用上述優選的方案,存儲效果好。
作為優選的方案,步驟5)具體包括以下步驟:
5.1)讀取兩個存儲單元;
5.2)對存儲的異構數據的語義信息按字進行劃分;
5.3)計算字頻;
5.4)得到字頻序列;
5.5)計算兩個字頻序列的COS夾角值。
采用上述優選的方案,操作便捷。
作為優選的方案,步驟5)具體包括以下步驟:
5.6)判斷得到的夾角值是否大于a,若大于,則相似;否則,則不相似。
采用上述優選的方案,判斷便捷。
作為優選的方案,異構數據源語義標簽包括:數據源名稱和/或數據源類別和/或數據源描述和/或數據源格式和/或數據源創建時間。
采用上述優選的方案,根據具體情形進行標記。
作為優選的方案,異構數據信息語義標簽包括:數據名稱和/或數據歸屬信息和/或數據描述和/或數據創建時間。
采用上述優選的方案,根據具體情形進行標記。
作為優選的方案,索引信息包括數據源信息和/或數據信息和/或分布式存儲的節點信息和/或索引時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州希格瑪科技有限公司,未經蘇州希格瑪科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710608703.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種二段式垃圾焚燒系統
- 下一篇:一種輔熱垃圾高效處理系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





