[發(fā)明專利]單源多期指標體系模塊化構(gòu)建及實體自動識別處理方法有效
| 申請?zhí)枺?/td> | 202210592829.X | 申請日: | 2022-05-27 |
| 公開(公告)號: | CN114880330B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設計)人: | 王紅;聶永川;吳峰;李銀生;任雁;張朝宗;毋鵬杰;楊揚;劉淼;張義倩 | 申請(專利權(quán))人: | 河北省科學技術(shù)情報研究院(河北省科技創(chuàng)新戰(zhàn)略研究院) |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28;G06F40/18;G06F40/186;G06F40/295 |
| 代理公司: | 石家莊中和昇知識產(chǎn)權(quán)代理事務所(特殊普通合伙) 13145 | 代理人: | 付會平 |
| 地址: | 050051 *** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 單源多期 指標體系 模塊化 構(gòu)建 實體 自動識別 處理 方法 | ||
本發(fā)明公開了一種單源多期指標體系模塊化構(gòu)建及實體自動識別處理方法,包括:將電子表格數(shù)據(jù)規(guī)整為標準化格式,分別提取主實體M(M)和附屬實體S(M)的題錄項以及數(shù)值項等信息;依據(jù)樣表文檔等信息,形成標準指標體系結(jié)構(gòu)EIS;提取主實體M(M)、附屬實體S(M)、標準指標體系結(jié)構(gòu)EIS、源庫表等的應用場景信息;形成顆粒化、標準化的數(shù)據(jù)。本發(fā)明應用于大數(shù)據(jù)處理技術(shù)領域中,提出了將數(shù)據(jù)中的各種實體按照彼此間的依存關(guān)系,劃分主實體和附屬實體;解決了數(shù)據(jù)隱性關(guān)系的提取、運算、溯源等問題,為進行多源、大規(guī)模數(shù)據(jù)關(guān)聯(lián)計算提供了可行性的解決方案。
技術(shù)領域
本發(fā)明涉及大數(shù)據(jù)應用技術(shù)領域,特別是一種單源多期表格數(shù)據(jù)的處理方法。
背景技術(shù)
目前,針對同一來源的表格數(shù)據(jù)的處理以及存儲方法,通常為多期數(shù)據(jù)分別存儲、展現(xiàn),沒有或不能完全從表格數(shù)據(jù)中提取數(shù)據(jù)之間的隱含關(guān)系,并進行高效存儲。現(xiàn)有技術(shù)在處理、提取、存儲數(shù)據(jù)的過程中,主要存在以下幾個問題:
1)數(shù)據(jù)隱含關(guān)系未顯性化,無法有效提取。由于缺少對實體的分類、分級定義,導致數(shù)據(jù)之間隱含的關(guān)系無法準確表達,也就無法有效提取數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
2)數(shù)據(jù)孤立,關(guān)系單一。利用現(xiàn)有技術(shù)處理的表格數(shù)據(jù),通常缺少基于實體分類的數(shù)據(jù)歸集,導致數(shù)據(jù)相對獨立、數(shù)據(jù)關(guān)系單一。
3)隱含關(guān)系丟失,無法精準表達。現(xiàn)有技術(shù)在處理電子表格數(shù)據(jù),提取實體的過程中,大多沒有直接記錄實體的應用場景等隱含屬性,而是直接進行存儲,這樣就丟失了很多隱含關(guān)系,在數(shù)據(jù)表達時會導致來源不清晰、無法準確描述數(shù)據(jù)(實體)之間的關(guān)聯(lián)關(guān)系等諸多問題,不僅不利于數(shù)據(jù)便捷查詢和關(guān)聯(lián)關(guān)系精準表達,也不利于進行大規(guī)模的數(shù)據(jù)關(guān)系運算和數(shù)據(jù)溯源。
發(fā)明內(nèi)容
本發(fā)明提供一種單源多期指標體系模塊化構(gòu)建及實體自動識別處理方法,用于解決同一來源的多期表格數(shù)據(jù)的指標標準化及主實體、附屬實體自動識別等問題,為進行多源、大規(guī)模數(shù)據(jù)關(guān)聯(lián)運算提供可行性的解決方案。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案如下。
單源多期指標體系模塊化構(gòu)建及實體自動識別處理方法,具體包括以下步驟:
A1.加載非標準電子表格數(shù)據(jù)文檔,利用表格數(shù)據(jù)標準化格式規(guī)整器,將多種形式的非標準化電子表格統(tǒng)一為電子表格數(shù)據(jù)標準化格式文檔D,同時,將電子表格數(shù)據(jù)轉(zhuǎn)換為關(guān)系型數(shù)據(jù)庫數(shù)據(jù),存入原數(shù)據(jù)數(shù)據(jù)庫OVDB;
A2.讀取步驟A1形成的標準化格式文檔D,利用實體題錄項自動識別構(gòu)建器,識別主實體M(M)和附屬實體S(M),形成主實體題錄項MEFS和附屬實體題錄項SEFS,存入實體題錄項數(shù)據(jù)庫EFDB;
A3.加載樣表文檔W,利用指標結(jié)構(gòu)化提取器,提取樣表文檔W的指標及層級,形成原始指標結(jié)構(gòu)OIS;
A4.讀取步驟A1形成的標準化格式文檔D,讀取步驟A3形成的原始指標結(jié)構(gòu)OIS,從指標數(shù)據(jù)庫IDB庫中讀取標準指標體系結(jié)構(gòu)EIS,利用指標體系自動融合構(gòu)建器,形成最新指標體系結(jié)構(gòu)EIS',本期指標結(jié)構(gòu)IS,存入指標數(shù)據(jù)庫IDB;
A5.讀取步驟A2形成的主實體M(M)和附屬實體S(M),從指標數(shù)據(jù)庫IDB庫中讀取對應的標準指標體系結(jié)構(gòu)EIS,利用實體應用場景提取器,提取主實體M(M)與附屬實體S(M)之間的應用場景ES,提取主附實體與標準指標體系結(jié)構(gòu)EIS的對應關(guān)系,存入實體應用場景數(shù)據(jù)庫ESDB;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河北省科學技術(shù)情報研究院(河北省科技創(chuàng)新戰(zhàn)略研究院),未經(jīng)河北省科學技術(shù)情報研究院(河北省科技創(chuàng)新戰(zhàn)略研究院)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210592829.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡分析的生態(tài)指標效能評價方法
- 一種利用計算機關(guān)系模型技術(shù)管理動態(tài)指標體系的方法
- 一種高速列車指標體系的處理方法和裝置
- 一種基于權(quán)重設計的指標體系評估方法
- 一種分布式供能系統(tǒng)綜合評價指標體系構(gòu)建方法
- 一種城市綠化剩余物統(tǒng)計指標體系框架的構(gòu)建方法
- 一種基于與理想指標體系關(guān)聯(lián)度的指標效能定量化評價方法
- 構(gòu)建指標體系的方法、裝置及計算機存儲介質(zhì)
- 動態(tài)構(gòu)建效能評估體系的方法、系統(tǒng)、計算機設備及存儲介質(zhì)
- 一種面向指標體系的語義化知識關(guān)聯(lián)方法
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設備
- 并行構(gòu)建的方法、裝置及設備
- 構(gòu)建肺癌預測模型構(gòu)建方法





