[發明專利]一種將非結構化數據轉化為結構化數據的方法及裝置在審
| 申請號: | 201811289109.6 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109344298A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 黃文琦;明哲;許愛東;滑春波;陳華軍;楊航;關澤武 | 申請(專利權)人: | 南方電網科學研究院有限責任公司;中國南方電網有限責任公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/31 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510663 廣東省廣州市蘿崗區科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 非結構化數據 結構化數據 轉化 目標信息 文件索引信息 預定義規則 查詢效率 存儲地址 多個方面 管理難度 內容相關 內容轉化 算法模型 文件標題 結構化 可視化 查找 管理 | ||
1.一種將非結構化數據轉化為結構化數據的方法,包括將待轉化的非結構化數據的目標信息轉化為結構化數據,其中,所述目標信息至少包括除所述待轉化的非結構化數據的內容之外的文件標題、存儲地址以及文件索引信息,其特征在于,還包括:
依據與所述待轉化的非結構化數據的類型所對應的算法模型提取與所述待轉化的非結構化數據的內容對應的第一目標信息;
根據預定義規則將所述第一目標信息轉化為結構化數據以將所述待轉化的非結構化數據的內容轉化為結構化數據。
2.根據權利要求1所述的將非結構化數據轉化為結構化數據的方法,其特征在于,當所述待轉化的非結構化數據的類型為文本文件時,所述算法模型具體為LDA主題模型。
3.根據權利要求2所述的將非結構化數據轉化為結構化數據的方法,其特征在于,所述依據與所述待轉化的非結構化數據的類型所對應的算法模型提取與所述待轉化的非結構化數據的內容對應的第一目標信息具體包括:
確定所述文本文件的內容中各數據的先驗概率;
依據所述先驗概率計算所述文本文件的內容中各數據的相似度;
依據所述相似度確定出所述文本文件的內容中各數據的類型或語義,并采用聚類算法對相同類型或相同語義的數據進行聚類處理以得出所述第一目標信息。
4.根據權利要求1所述的將非結構化數據轉化為結構化數據的方法,其特征在于,當所述待轉化的非結構化數據的類型為圖像文件或視頻文件時,所述算法模型具體為深度神經網絡模型。
5.根據權利要求4所述的將非結構化數據轉化為結構化數據的方法,其特征在于,所述依據與所述待轉化的非結構化數據的類型所對應的算法模型提取與所述待轉化的非結構化數據的內容對應的第一目標信息具體為:
采用所述深度神經網絡模型中的RBF徑向基函數神經網絡提取所述第一目標信息。
6.根據權利要求5所述的將非結構化數據轉化為結構化數據的方法,其特征在于,當所述待轉化的非結構化數據的類型為圖像文件時,所述采用所述深度神經網絡模型中的RBF徑向基函數神經網絡提取所述第一目標信息具體包括:
對所述圖像文件進行分割處理得出多個子圖像;
采用所述RBF徑向基函數神經網絡對各所述子圖像進行特征提取,并對所提取的特征進行聚類分析以得出第二目標信息,并將所述第二目標信息作為所述第一目標信息。
7.根據權利要求5所述的將非結構化數據轉化為結構化數據的方法,其特征在于,當所述待轉化的非結構化數據的類型為視頻文件時,所述采用所述深度神經網絡模型中的RBF徑向基函數神經網絡提取所述第一目標信息具體包括:
依據確定出的分割參數將所述視頻文件的內容進行分割處理得出多個子視頻;將各所述子視頻采用逐幀分析的方式轉換為子圖像;
采用所述RBF徑向基函數神經網絡對各所述子圖像進行特征提取,并對所提取的特征進行聚類分析以得出第三目標信息,并將所述第三目標信息作為所述第一目標信息。
8.根據權利要求1至7任意一項所述的將非結構化數據轉化為結構化數據的方法,其特征在于,所述根據預定義規則將所述第一目標信息轉化為結構化數據具體包括:
按照與所述待轉化的非結構化數據的文件模板將所述第一目標信息轉換為半結構化數據;
對所述半結構化數據進行MapReduce并行處理;
利用XML技術將所述MapReduce并行處理后的半結構化數據轉化為結構化數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網科學研究院有限責任公司;中國南方電網有限責任公司,未經南方電網科學研究院有限責任公司;中國南方電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811289109.6/1.html,轉載請聲明來源鉆瓜專利網。





