[發明專利]選擇具有快照關系的網絡表格的方法及裝置在審
| 申請號: | 201410441120.5 | 申請日: | 2014-09-01 |
| 公開(公告)號: | CN104199924A | 公開(公告)日: | 2014-12-10 |
| 發明(設計)人: | 王寧;任紅偉 | 申請(專利權)人: | 北京交通大學長三角研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 毛燕生 |
| 地址: | 212009 江蘇省鎮江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 選擇 具有 快照 關系 網絡 表格 方法 裝置 | ||
本發明公開了一種選擇具有快照關系的網絡表格的方法及裝置,該方法包括:將網絡表格的集合按照網絡表格的實體列的內容的領域進行分類,其中,實體列為能夠標識網絡表格的記錄的屬性列;在分類后的網絡表格集合中,根據預設規則,選擇與第一表格對應的多個第二表格,其中,多個第二表格是與第一表格具有快照關系的網絡表格。通過本發明,選擇與第一表格具有快照關系的多個第二表格,第二表格可用于優化查詢以提高查詢的效率,也可以用于大數據環境,使得系統能夠實時地返回部分查詢結果。
技術領域
本發明涉及數據處理領域,具體而言,涉及一種選擇具有快照關系的網絡表格的方法及裝置。
背景技術
隨著信息技術的發展,互聯網上的資源越來越豐富,除了非結構化數據外,還有大量的網絡表存在,這些網絡表覆蓋面廣且信息量大,因此受到人們的關注。Google公司啟動了WebTables項目,研究如何更好地抽取和利用網絡上廣泛存在的結構化數據;最近推出的Fusion Tables旨在幫助人們在云環境下進行數據集成和合作,用戶可以上傳表格狀的數據并與其他用戶分享,通過合作的方式利用眾人的智慧解決數據合并過程中可能引起的沖突。為了讓機器更容易地處理來自網絡的表格數據,Microsoft公司利用知識庫對網絡表進行語義恢復,恢復其表頭,并實現實體列的探測以及典型屬性的提取。
實踐中,網絡數據的價值不僅在于數據本身,還在于數據之間的關系。只有探測出數據間潛在的關系,方能更好地利用這些數據。Xin Luna Dong嘗試發現網絡數據間的復制關系,以便找到數據的真正來源,從而檢測數據的真假。Anish Das Sarma等人發現表格之間的合并和連接關系,合并關系可以實現實體級的補充,而連接關系可以實現實體屬性級的補充,這兩種關聯關系的發現不僅有助于表格內容的擴展,也給搜索帶來了很大的幫助。以合并關系為例,如果一個體育愛好者想在已知表A中查找運動員“Rafael Nadal”的記錄,在該表沒有這條記錄的情況下,查詢會失效。但是,如果我們事先已經發現另一張表與A表是合并關系,那么查詢就可以轉移到這張與A表具有合并關系的表上,從而增加了找到“Rafael Nadal”的概率。除了復制、合并以及連接關系外,網絡表格之間還可以存在其它可以利用的關系。
關系表之間的快照關系可以被用于優化查詢。隨著互聯網數據抽取技術的發展,來自網絡的結構化數據日益增多,它們可以和本地數據一起用于查詢和分析。設想用戶需要經常在一張規模較大的網絡表T
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學長三角研究院,未經北京交通大學長三角研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410441120.5/2.html,轉載請聲明來源鉆瓜專利網。





