[發(fā)明專(zhuān)利]一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201811289109.6 | 申請(qǐng)日: | 2018-10-31 |
| 公開(kāi)(公告)號(hào): | CN109344298A | 公開(kāi)(公告)日: | 2019-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 黃文琦;明哲;許愛(ài)東;滑春波;陳華軍;楊航;關(guān)澤武 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南方電網(wǎng)科學(xué)研究院有限責(zé)任公司;中國(guó)南方電網(wǎng)有限責(zé)任公司 |
| 主分類(lèi)號(hào): | G06F16/901 | 分類(lèi)號(hào): | G06F16/901;G06F16/31 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510663 廣東省廣州市蘿崗區(qū)科*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 非結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù) 轉(zhuǎn)化 目標(biāo)信息 文件索引信息 預(yù)定義規(guī)則 查詢效率 存儲(chǔ)地址 多個(gè)方面 管理難度 內(nèi)容相關(guān) 內(nèi)容轉(zhuǎn)化 算法模型 文件標(biāo)題 結(jié)構(gòu)化 可視化 查找 管理 | ||
1.一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,包括將待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的目標(biāo)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),其中,所述目標(biāo)信息至少包括除所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容之外的文件標(biāo)題、存儲(chǔ)地址以及文件索引信息,其特征在于,還包括:
依據(jù)與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型所對(duì)應(yīng)的算法模型提取與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容對(duì)應(yīng)的第一目標(biāo)信息;
根據(jù)預(yù)定義規(guī)則將所述第一目標(biāo)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)以將所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,當(dāng)所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型為文本文件時(shí),所述算法模型具體為L(zhǎng)DA主題模型。
3.根據(jù)權(quán)利要求2所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述依據(jù)與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型所對(duì)應(yīng)的算法模型提取與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容對(duì)應(yīng)的第一目標(biāo)信息具體包括:
確定所述文本文件的內(nèi)容中各數(shù)據(jù)的先驗(yàn)概率;
依據(jù)所述先驗(yàn)概率計(jì)算所述文本文件的內(nèi)容中各數(shù)據(jù)的相似度;
依據(jù)所述相似度確定出所述文本文件的內(nèi)容中各數(shù)據(jù)的類(lèi)型或語(yǔ)義,并采用聚類(lèi)算法對(duì)相同類(lèi)型或相同語(yǔ)義的數(shù)據(jù)進(jìn)行聚類(lèi)處理以得出所述第一目標(biāo)信息。
4.根據(jù)權(quán)利要求1所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,當(dāng)所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型為圖像文件或視頻文件時(shí),所述算法模型具體為深度神經(jīng)網(wǎng)絡(luò)模型。
5.根據(jù)權(quán)利要求4所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述依據(jù)與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型所對(duì)應(yīng)的算法模型提取與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容對(duì)應(yīng)的第一目標(biāo)信息具體為:
采用所述深度神經(jīng)網(wǎng)絡(luò)模型中的RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)提取所述第一目標(biāo)信息。
6.根據(jù)權(quán)利要求5所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,當(dāng)所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型為圖像文件時(shí),所述采用所述深度神經(jīng)網(wǎng)絡(luò)模型中的RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)提取所述第一目標(biāo)信息具體包括:
對(duì)所述圖像文件進(jìn)行分割處理得出多個(gè)子圖像;
采用所述RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)對(duì)各所述子圖像進(jìn)行特征提取,并對(duì)所提取的特征進(jìn)行聚類(lèi)分析以得出第二目標(biāo)信息,并將所述第二目標(biāo)信息作為所述第一目標(biāo)信息。
7.根據(jù)權(quán)利要求5所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,當(dāng)所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的類(lèi)型為視頻文件時(shí),所述采用所述深度神經(jīng)網(wǎng)絡(luò)模型中的RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)提取所述第一目標(biāo)信息具體包括:
依據(jù)確定出的分割參數(shù)將所述視頻文件的內(nèi)容進(jìn)行分割處理得出多個(gè)子視頻;將各所述子視頻采用逐幀分析的方式轉(zhuǎn)換為子圖像;
采用所述RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)對(duì)各所述子圖像進(jìn)行特征提取,并對(duì)所提取的特征進(jìn)行聚類(lèi)分析以得出第三目標(biāo)信息,并將所述第三目標(biāo)信息作為所述第一目標(biāo)信息。
8.根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述根據(jù)預(yù)定義規(guī)則將所述第一目標(biāo)信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)具體包括:
按照與所述待轉(zhuǎn)化的非結(jié)構(gòu)化數(shù)據(jù)的文件模板將所述第一目標(biāo)信息轉(zhuǎn)換為半結(jié)構(gòu)化數(shù)據(jù);
對(duì)所述半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行MapReduce并行處理;
利用XML技術(shù)將所述MapReduce并行處理后的半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南方電網(wǎng)科學(xué)研究院有限責(zé)任公司;中國(guó)南方電網(wǎng)有限責(zé)任公司,未經(jīng)南方電網(wǎng)科學(xué)研究院有限責(zé)任公司;中國(guó)南方電網(wǎng)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811289109.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 基于AI的非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 非結(jié)構(gòu)化數(shù)據(jù)處理方法和非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)
- 業(yè)務(wù)項(xiàng)目的風(fēng)險(xiǎn)識(shí)別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法
- 結(jié)構(gòu)化元數(shù)據(jù)的合并方法、傳輸方法以及分割方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 業(yè)務(wù)項(xiàng)目的風(fēng)險(xiǎn)識(shí)別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)查詢方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 信息關(guān)聯(lián)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法
- 答復(fù)信息的獲取方法及裝置
- 一種信息提醒方法、裝置及終端
- 一種飲食信息推薦方法以及裝置
- 基于地圖的信息顯示方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 信息顯示方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- 一種對(duì)象頁(yè)面生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 目標(biāo)物識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 音頻信號(hào)輸出方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備
- 一種信息匹配方法及裝置
- 目標(biāo)信息傳送系統(tǒng)





