[發明專利]一種基于詞義相似度的智能數據治理方法和系統在審
| 申請號: | 202210457826.5 | 申請日: | 2022-04-28 |
| 公開(公告)號: | CN114936551A | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 謝少飛;閆晶;喻波;王志海;安鵬 | 申請(專利權)人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06F40/194 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100142 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞義 相似 智能 數據 治理 方法 系統 | ||
本發明提出一種基于詞義相似度的智能數據治理方法和系統。其中,方法包括:中文分詞:將一個詞語或語句進行分詞處理;詞性標注:在中文分詞的基礎上,對分詞之后的詞語或語句進行詞性的標注;關鍵字提取:基于詞性標注之后的結果,根據所需要的詞性劃分,進行關鍵字提取;相識度判斷:對關鍵字提取之后的詞語或語句與分類分級模版中的相關詞語進行比較,給出相似度。本發明提出的方案,幫助提高數據治理過程中數據的分類以及匹配的自動化以及準確度。平臺通過集成自然語義分析等技術手段,實現數據安全基礎元數據與分類分級的自動智能匹配,通過匹配的過程不斷的完善語料庫,實現平臺自我學習的過程,從而提高匹配的效率和準確度。
技術領域
本發明屬于數據治理領域,尤其涉及一種基于詞義相似度的智能數據治理方法和系統。
背景技術
自然語言處理(Natural Language Processing,NLP):是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。
數據治理(Data Governance):是組織中涉及數據使用的一整套管理行為。由企業數據治理部門發起并推行,關于如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。
國際數據管理協會(DAMA)給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合。
國際數據治理研究所(DGI)給出的定義:數據治理是一個通過一系列信息相關的過程來實現決策權和職責分工的系統,這些過程按照達成共識的模型來執行,該模型描述了誰(Who)能根據什么信息,在什么時間(When)和情況(Where)下,用什么方法(How),采取什么行動(What)。
狹義上講,數據治理是指對數據質量的管理、專注在數據本身。廣義上講,數據治理是對數據的全生命周期進行管理,包含數據采集、清洗、轉換等傳統數據集成和存儲環節的工作、同時還包含數據資產目錄、數據標準、質量、安全、數據開發、數據價值、數據服務與應用等,整個數據生命期而開展開的業務、技術和管理活動都屬于數據治理范疇。有的專家干脆把廣義的數據治理稱為數據資產管理。
數據治理專注于將數據作為企事業單位數據資產進行應用和管理的一套管理機制,能夠消除數據的不一致性,建立規范的數據應用標準,提高數據質量,實現數據內外部共享,并能夠將數據作為組織的寶貴資產應用于業務、管理、戰略決策中,發揮數據資產價值。
近年來,隨著大數據平臺和工業互聯網興起,數據治理平臺主要采取數據中臺技術和微服務架構初步替代傳統架構,面向大數據架構下,為數據資源中心與外部數據系統提供數據服務。對內和對外系統提供云服務。
數據治理的目標是提高數據的質量(準確性和完整性),保證數據的安全性(保密性,完整性及可用性),實現數據資源在各組織機構部門的共享;推進信息資源的整合,對接和共享,從而提升企業信息化水平,充分發揮信息化的作用。
現有技術大部分通過將收集上來的數據進行人工關聯或者字符串匹配的方式進行數據與數據以及數據與分類的關聯。
人工匹配的缺點是工作量較大,耗時較長。字符串匹配的方式雖然解決了部分人工匹配的工作,但單一字符串匹配的匹配率較低,不能完全解決人工匹配工作量的問題。
發明內容
為解決上述技術問題,本發明提出一種基于詞義相似度的智能數據治理方法和系統的技術方案,以解決上述技術問題。
本發明第一方面公開了一種基于詞義相似度的智能數據治理方法,所述方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明朝萬達科技股份有限公司,未經北京明朝萬達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210457826.5/2.html,轉載請聲明來源鉆瓜專利網。





