[發明專利]一種將非結構化數據轉化為結構化數據的方法及裝置在審
| 申請號: | 201811289109.6 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109344298A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 黃文琦;明哲;許愛東;滑春波;陳華軍;楊航;關澤武 | 申請(專利權)人: | 南方電網科學研究院有限責任公司;中國南方電網有限責任公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/31 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510663 廣東省廣州市蘿崗區科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 非結構化數據 結構化數據 轉化 目標信息 文件索引信息 預定義規則 查詢效率 存儲地址 多個方面 管理難度 內容相關 內容轉化 算法模型 文件標題 結構化 可視化 查找 管理 | ||
本發明公開了一種將非結構化數據轉化為結構化數據的方法,除了可將待轉化的非結構化數據的文件標題、存儲地址以及文件索引信息等轉化為結構化數據之外,還可根據與待轉化的非結構化數據的類型所對應的算法模型提取待轉化的非結構化數據中與該非結構化數據內容相關的第一目標信息;再根據預定義規則將第一目標信息轉化為結構化數據,進而可將非結構化數據的內容轉化為結構化數據。可多個方面對待轉化的非結構化數據進行結構化轉化,利用非結構化數據的內容也可查找或管理非結構化數據,提高了非結構化數據的可視化和查詢效率、降低了管理難度。另外,本發明還公開了一種將非結構化數據轉化為結構化數據的裝置,效果如上。
技術領域
本發明涉及數據類型轉化領域,特別涉及一種將非結構化數據轉化為結構化數據的方法及裝置。
背景技術
目前使用的數據類型主要包括三種結構:結構化數據這類信息能夠用數據或統一的結構加以表示,并存儲在數據庫中,有一定的路基結構,可以用二維表來表示。非結構化數據這類信息是指數據結構不固定,無法用二維數據表結構表示的數據,如文檔、圖像和視頻。半結構化數據是介于結構化數據和非結構化數據之間的一種數據形式(如XML、文檔),它是具有結構的數據,但是結構變化很大。
三種類型的結構化數據的特征是:結構化數據易于管理、查詢效率高、可靠度高、可以增加權限控制、管理成本非常低。結構化數據常常存放在關系型數據庫中,可以讓使用者更方便、更高效的進行搜尋。但是對于結構化數據來說最大的弊端就是不易于擴展,有固定的格式、模板,增加數據屬性時異常困難。對于半結構化數據的重要性日趨凸顯,主要是因為它的靈活性,半結構化數據是“無模式”的,其數據是自描述的,并且關聯了其模式的信息,這種模式可以隨時間在單一數據庫內任意改變。而對于非結構化數據,雖然具有很好的可擴展性且足夠靈活,但是在數據管理、查詢方面面臨很大的困難,所以將分結構化數據轉化為結構化數據顯得尤為重要。
目前主要是將非結構數據類型的文件標題、存儲地址以及標注等可以代表非結構數據類型的主要信息進行轉化,利用轉化后的文件標題、存儲地址以及標注等結構化數據去查找或管理非結構數據類型的文件。但是這種轉化方式比較單一,會導致轉化后的文件的內容依然是由非結構數據類型組成的文件,仍然存在可視化以及管理問題,并且采用現有技術中的這種轉化方式管理難度和查詢難度較大。
由此可見,如何克服由于非結構化數據轉化為結構化數據的方式單一,進而導致的非結構化數據可視化效果差以及查詢和管理難度大的問題是本領域技術人員亟待解決的問題。
發明內容
本申請實施例提供了一種將非結構化數據轉化為結構化數據的方法及裝置,以解決現有技術中由于非結構化數據轉化為結構化數據的方式單一,進而導致的非結構化數據可視化效果差以及查詢和管理難度大的問題。
為解決上述技術問題,本發明提供了一種將非結構化數據轉化為結構化數據的方法,包括將待轉化的非結構化數據的目標信息轉化為結構化數據,其中,所述目標信息至少包括除所述待轉化的非結構化數據的內容之外的文件標題、存儲地址以及文件索引信息,其特征在于,還包括:
依據與所述待轉化的非結構化數據的類型所對應的算法模型提取與所述待轉化的非結構化數據的內容對應的第一目標信息;
根據預定義規則將所述第一目標信息轉化為結構化數據以將所述待轉化的非結構化數據的內容轉化為結構化數據。
優選地,當所述待轉化的非結構化數據的類型為文本文件時,所述算法模型具體為LDA主題模型。
優選地,所述依據與所述待轉化的非結構化數據的類型所對應的算法模型提取與所述待轉化的非結構化數據的內容對應的第一目標信息具體包括:
確定所述文本文件的內容中各數據的先驗概率;
依據所述先驗概率計算所述文本文件的內容中各數據的相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網科學研究院有限責任公司;中國南方電網有限責任公司,未經南方電網科學研究院有限責任公司;中國南方電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811289109.6/2.html,轉載請聲明來源鉆瓜專利網。





