[發明專利]基于內容識別的標準數據構建方法、系統、設備及介質在審
| 申請號: | 202110829959.6 | 申請日: | 2021-07-22 |
| 公開(公告)號: | CN113535938A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 白格日樂圖 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/36;G06F16/38 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 李祺 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 識別 標準 數據 構建 方法 系統 設備 介質 | ||
本發明公開了一種基于內容識別的標準數據構建方法、系統、設備及介質,標準數據構建方法包括:數據源預處理步驟:對數據源的元數據及數據內容進行預處理獲得數據的數據特征;匹配指數獲得步驟:根據數據的數據特征、元數據及/或字典碼表通過數據標準化元模型算法進行關聯獲得標準數據,并計算標準數據的元數據與數據特征的匹配指數;標準數據推薦步驟:根據匹配指數選擇至少一所述標準數據后,對標準數據進行驗證后輸出標準化程度評估結果,根據標準化程度評估結果推薦標準數據。通過本發明實現了數據元、元數據、數據內容、字典碼表的自動標準化,結合人機互操作,構建標準數據層,提高數據質量和治理效率。
技術領域
本發明涉及數據處理技術領域,特別涉及一種基于內容識別的標準數據構建方法、系統、設備及介質。
背景技術
通過對在線文檔進行標簽提取,可以更加有效的支撐知識庫的文檔檢索,推薦等智能化服務。文檔標簽的提取是通過nlp等技術從文檔中抽取一條或幾條文檔的重要信息,這些信息是用戶真正關注的內容,包括實體、關鍵短語等。利用這些標簽可以使文檔的查詢,推薦等服務更加智能,更加準確,從而提升效率。信息時代數據作為重要的生產要素,在各行各業特別重視數據資產,數據治理再IT建設和企業治理過程中越來越重要。由于IT系統建設歷史原因及個性化數據加工生產需求,存在數據源繁雜且標準不統一,數據質量參差不齊的情況。盡管在國家、行業層面定義各類數據的數據元、數據項、字典及接口標準來引導標準化建設工作,仍缺乏高效的工具支撐及標準和指導規范覆蓋不到方方面面的業務情況。
現有技術中,以數據治理流程約束的人工對照國家/行業標準,在數據準備階段,引入關鍵詞匹配規則實現數據項的自動標準化工作。一般的實現方式為:在數據元管理時將別名、關鍵詞定義,且不斷維護更新數據元的定義。對于將要標準化的數據項,通過關鍵詞匹配規則,自動映射對應的數據元,實現數據項的自動標準化。但是基于關鍵詞匹配規則實現,存在大量的規則維護工作且自動化效果較差情況,還需要大量的人工梳理工作。而字典碼表、數據內容未做標準化處理,導致數據的表里不一,數據標準無法貫徹執行。
由此可見,現有技術的數據標準化工作主要由人工對照規范或者基于關鍵詞規則自動標準化數據項,對字典碼表、數據內容未做自動標準化,且缺乏數據質量的保證。
因此亟需開發一種克服上述缺陷的基于內容識別的標準數據構建方法、系統、設備及介質。
發明內容
針對上述問題,本申請實施例提供了一種基于內容識別的標準數據構建方法、系統、設備及介質,以至少解決提升數據質量的問題。
本發明提供一種基于內容識別的標準數據構建方法,其中,包括:
數據源預處理步驟:對數據源的元數據及數據內容進行預處理獲得數據的數據特征;
匹配指數獲得步驟:根據所述數據的數據特征、元數據及/或字典碼表通過數據標準化元模型算法進行關聯獲得標準數據,并計算所述標準數據的元數據與數據特征的匹配指數;
標準數據推薦步驟:根據所述匹配指數選擇至少一所述標準數據后,對所述標準數據進行驗證后輸出標準化程度評估結果,根據所述標準化程度評估結果推薦所述標準數據。
上述的標準數據構建方法,其中,所述匹配指數獲得步驟包括:
標準數據獲取步驟:根據所述數據的數據特征及所述元數據通過所述數據標準化元模型算法進行關聯獲得所述標準數據;
初始匹配指數獲得步驟:通過所述數據標準化元模型算法根據數據特征及所述元數據獲得多個初始匹配指數;
第一匹配指數獲得步驟:根據多個所述初始匹配指數通過加權計算獲得第一匹配指數;
其中,所述標準數據推薦步驟中根據所述第一匹配指數選擇至少一所述標準數據。
上述的標準數據構建方法,其中,所述匹配指數獲得步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110829959.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種設有導向頂出抽芯機構的車載冰箱模具
- 下一篇:一種語音信號去噪方法及裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





