[發(fā)明專利]一種基于多標簽傳播的數(shù)據庫重疊模式摘要生成方法有效
| 申請?zhí)枺?/td> | 201510464314.1 | 申請日: | 2015-07-31 |
| 公開(公告)號: | CN105138588B | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設計)人: | 袁曉潔;于漫;王超;靳宇東;溫延龍 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津佳盟知識產權代理有限公司 12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 傳播 數(shù)據庫 重疊 模式 摘要 生成 方法 | ||
一種基于多標簽傳播的數(shù)據庫重疊模式摘要生成方法。包括:將數(shù)據庫模式信息映射為多標簽圖模型;采用多標簽傳播算法對數(shù)據庫模式信息進行聚類,生成可重疊團;采用層次聚類算法對可重疊團進行聚類,進一步生成規(guī)模適當?shù)慕Y果類;最后基于信息熵及隨機游走模型為每個結果類選取主題表,以生成最終的數(shù)據庫重疊模式摘要。本發(fā)明提出的重疊模式摘要生成方案能夠為用戶提供更加準確、具有意義的數(shù)據庫重疊模式摘要,幫助用戶快速地理解數(shù)據庫信息。
技術領域
本發(fā)明屬于數(shù)據庫技術領域,具體涉及一種新型的關系數(shù)據庫重疊模式摘要生成技術。
背景技術
隨著計算機的普及和信息技術的飛速發(fā)展,大量的數(shù)據信息使得數(shù)據庫技術得到了廣泛的使用,數(shù)據庫應用開始走向普通用戶。然而現(xiàn)代數(shù)據庫的規(guī)模往往十分龐大而復雜,用戶要想在查詢過程中生成適當?shù)慕Y構化查詢語言,就必須要對數(shù)據庫的模式信息具有一定的了解。然而大規(guī)模數(shù)據庫所對應的模式信息通常也十分復雜,并且普遍存在相關文檔缺失現(xiàn)象,更給用戶了解數(shù)據庫模式造成了困難。
模式摘要生成技術能夠有效的解決上述問題,為用戶提供一個簡明的數(shù)據庫模式概要,提高數(shù)據庫的可用性。現(xiàn)存的模式摘要解決方案都只專注于非重疊模式摘要的生成,也就是只允許一個數(shù)據庫關系表屬于模式摘要中的一個主題類,然而在現(xiàn)實中,數(shù)據庫關系表往往可以擁有多重意義并隸屬于多個主題類。只考慮非重疊情況會導致摘要結果不完整甚至使用戶產生誤解。
相對于非重疊模式摘要往往不能夠全面滿足用戶需求的問題。重疊模式摘要生成技術能夠生成更加合理的數(shù)據庫模式摘要信息,有效減少用戶理解數(shù)據庫模式所消耗的時間和精力,具有廣泛的工程應用前景。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術存在的上述不足,提出一種基于多標簽傳播的數(shù)據庫重疊模式摘要自動生成方法。
本發(fā)明提供的基于多標簽傳播的數(shù)據庫重疊模式摘要生成方法,創(chuàng)新地提出了重疊模式摘要概念;設計一種新的數(shù)據庫多標簽模式圖模型;采用了多標簽傳播算法和層次聚類算法分別對數(shù)據庫模式進行聚類;最終為聚類所得的每個結果類選取一個主題表,為用戶返回一個可重疊的模式摘要。該方法的步驟如下:
第1、將數(shù)據庫模式映射為一個帶權重的多標簽圖;
第1.1、將數(shù)據庫模式映射為一個多標簽圖,
定義1:一個關系數(shù)據庫模式可以映射為一個多標簽圖,用一個三元組G=(V,E,LM)表示,其中:
①.V表示數(shù)據庫中關系表節(jié)點的集合,v∈V表示數(shù)據庫中的關系表節(jié)點;
②.E表示數(shù)據庫中外鍵關系的集合,e∈E表示數(shù)據庫中的外鍵關系;
③.LM為一個標簽映射函數(shù),將節(jié)點映射到對應的一個或者多個標簽,其中標簽用(c,b)表示,c表示一個結果類標示符,b為標簽隸屬度,表示一個數(shù)據庫關系表v與其結果類標示符c的隸屬強度;
第1.2、計算多標簽圖中連接邊的兩個關系表間的相似性,作為標簽圖權重;
第1.2.1、使用空間向量模型計算關系表的表名和屬性名的文本相似度,作為關系表的名稱相似度;
第1.2.2、使用Jaccard系數(shù)對關系表屬性列的值進行數(shù)值相似度分析,并通過貪心算法找到最佳匹配屬性對,取最佳匹配屬性對值相似度的平均值求得關系表值相似度;
第1.2.3、通過分析關系表之間的計數(shù)比率,計算出關系表的映射關系相似度,
定義2:關系表R與關系表S之間的映射關系相似度,記作Simm(R,S),定義如下:
其中:
①.τ表示關系表的所有元組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510464314.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煙絲輸送系統(tǒng)
- 下一篇:語音文本串的解析方法和裝置





