[發明專利]面向智慧校園的網頁表數據與關系型數據庫數據集成方法有效
| 申請號: | 202110350187.8 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113139143B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 金峻帆;陳軍相;袁俊峰;張紀林;劉濤;錢瑞祥;劉峰;周麗;張俊聰 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/957 | 分類號: | G06F16/957;G06F16/215;G06F16/22;G06F16/25;G06F16/28;G06F16/955 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 智慧 校園 網頁 數據 關系 數據庫 集成 方法 | ||
本發明公開了面向智慧校園的網頁表數據與關系型數據庫數據集成方法。本發明通過多分類器計算所有數據表對應屬性列的相似度,獲得屬性關聯關系后進行初步數據集成,有效降低屬性之間的不確定性。通過爬蟲獲取校園網頁中離散的網頁表數據,使用混合標簽匹配器得到多個網頁表的標簽映射關系,再將這些網頁表縫合為一張較大網頁表。將這縫合后的網頁表轉換為結構化數據表,與初步集成后的數據特征表進行數據集成,提高了集成數據完整性。本發明在傳統的數據集成中增加了對校園網頁中網頁表數據的集成方法,使得最后得到的用戶特征表更加完善,將網絡上的數據與本地數據結合起來,進一步提升數據集成的準確率,發現有價值的潛在信息。
技術領域
本發明屬于計算機技術領域,涉及一種面向智慧校園的網頁表數據與關系型數據庫數據集成方法,更具體地說,本發明涉及一種面向智慧校園領域,針對高校內數據融合后存在特征缺失與信息不足問題的數據集成方法。
背景技術
隨著社會的信息化與大數據的發展,對于高校各部門逐漸建立起各自的業務系統,但是由于各業務系統建立時間和提供商不同,缺乏大數據中心環境,并且數據利用不充分,難以體現數據價值導致了目前的高校中存在大量的面向線上、線下等多源跨界的校園數據,智慧校園大數據的研究越來越受重視,為了以更透徹的感知,更智能的分析為目標,探索提升數據組織和處理的靈活性和適應性,提高校園數據的時效性和準確性、增強智慧教育領域知識的全面性與關聯性。
智慧校園每天在日常的教育、活動、管理等方面均會產生大量的多源異構數據,其中良好的校園數據管理策略可以極大地提升數據質量、訪問效率,同時降低對校園數據的維護成本。為實現較好的校園數據管理策略,需要利用這些數據進行必要的數據集成,發現來自不同數據源中指代具有相同含義、實體的數據之間的關聯關系。再通過這些關聯關系,將不同數據源中的數據匯總到一張具有更多特征的數據表,從融合后的數據中提取并選擇有效的特征進行后續的智能分析,發現有價值的潛在信息。集成后的特征表可根據用戶的需求進行個性化數據展示,如學生的課堂考勤與成績信息表,教師的科研與行政工作信息表以及其他有具體業務場景的集成特征表。這就要求數據集成后特征表的完整性要達到較高的標準,否則會降低用戶使用的體驗和辦事效率。在實際應用中,數據集成工作對校園大數據的管理、查詢以及校園數據分析場景都具有重要的作用,也是大數據管理任務需要解決的重要問題之一。
目前已經存在的一些數據集成方法中,通常都是只針對傳統關系型數據庫中的結構表,比如Oracle、MySQL與SQLServer數據庫中的數據表。然而這種方法在很多時候存在數據更新不及時,并且關系型數據庫中缺少某些重要屬性,則可能會導致最后數據集成結果屬性缺失,從而會極大地降低集成表的完整性。
因而針對目前傳統關系型數據庫數據集成的特點,有必要發明一種多數據源環境下能數據集成方法。
發明內容
本發明的目的在于克服由于傳統關系型數據庫數據更新有延遲,且數據庫數據屬性缺失較多與數據來源不足問題,提供了一種面向智慧校園的網頁表數據與傳統關系型數據庫數據集成方法。
該方法包括結構化數據屬性提取過程、網頁表數據屬性提取過程、數據集成過程;
所述的結構化數據屬性提取過程包括以下步驟:
步驟1-1:將事先收集好數據的智慧校園中各關系型數據庫A中所有結構化數據表抽取出來,并經過數據清洗后存儲到數據庫B;其中數據抽取、數據清洗屬于現有常規技術,故不詳解;
A={A1,A2,......,An},其中An表示第n個關系型數據庫,n為關系型數據庫數量。
步驟1-2:按照事先預設的屬性匹配策略在步驟(1-1)數據清洗后的各數據表尋找相關聯屬性,若存在m個相關聯屬性(m≥1)則根據相關聯屬性將步驟(1-1)數據清洗后的數據表數據集成為特征表1;若不存在相關聯屬性則將步驟(1-1)數據清洗后的各數據表作為特征表1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110350187.8/2.html,轉載請聲明來源鉆瓜專利網。





