[發明專利]一種基于分布-收斂模型的文獻聚類方法有效
| 申請號: | 201510706636.2 | 申請日: | 2015-10-27 |
| 公開(公告)號: | CN105335499B | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 李益娟;李永萍;徐小龍;徐友武 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 224051 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布 收斂 模型 文獻 方法 | ||
本發明公開了一種基于分布?收斂模型的文獻聚類方法,首先給出基于分布?收斂模型的共現矩陣構建方法,利用分布?收斂模型統計知識屬性的共現頻次,并與散列圖結合構建共現矩陣;其次,將共現矩陣與相近度系數結合構建相近度矩陣;然后,對相近度矩陣進行標準化;最后,使用離差平方和法對相近度矩陣進行聚類,實現對知識的高效的細粒度聚類。本發明方法應用于網絡文獻知識庫進行文獻聚類,可以達到較理想的聚類精度和計算效率,實現細粒度文獻聚類,同時減少了時間開銷。
技術領域
本發明涉及一種知識聚類方法,尤其涉及一種基于分布-收斂模型的文獻聚類方法,屬于數據挖掘和知識系統的交叉技術應用領域。
背景技術
網絡文獻知識庫系統一般主要是按照學科門類對存儲的文獻進行分類,而沒有按照學科下屬的知識領域進行更細粒度的分類。這種分類的粗粒度,導致學習者容易在文獻檢索和閱讀過程出現認知迷航和知識過載問題。通過文獻聚類將知識對象按其屬性進行整合與統計,不但可以更細致地對文獻進行分類,為學習者理清知識脈絡、提高文獻調研效率,而且可以揭示知識發展規律與知識間聯系等潛在的有價值信息。
高效的聚類方法是實現文獻聚類與分類導航的關鍵。K均值方法簡單高效,是使用最廣泛的聚類方法,特別是超球K均值方法已被證明是非常有效的文本聚類方法。但是,超球K均值方法由于收斂性問題導致方法自身不穩定。聚類集成技術對聚類成員的結果再進行聚類,即通過二次聚類的方法提高了聚類方法的精確性和穩定性:首先得到對象之間的共現矩陣或相近度矩陣,然后使用聚類方法對矩陣進行聚類得到結果。相近度矩陣可以通過共現矩陣和相近度系數轉換得到。合理地構造共現矩陣和相近度矩陣成為提高聚類方法精確度的關鍵。通過聚類集成技術可以有效地克服K均值方法的不穩定性。通過文獻計量和內容分析兩種方法結合的方式可以實現對關鍵詞的共現矩陣和相異矩陣進行分層聚類分析。目前國內外有代表性的文獻共現分析軟件包括Citespace以及知網數據處理軟件等。
共現矩陣的構造過程比較復雜。有研究人員采用傳統譜聚類中的方法構造相近矩陣,但是沒有充分利用樣本點分布特征隱含的先驗信息,構造效果不夠理想;還有使用貪心方法尋找滿足條件的非周期性相關系數來搜索最優的向量,構造(0,1)編碼矩陣。如果矩陣的規模太大不適合全部放入內存時,在單機上執行任務將非常緩慢甚至難以實現。壓縮技術可以使整個語料庫規模減小,但容易影響系統的穩定性。因此,對大規模文獻進行文獻聚類需要更為有效的共現矩陣構建方法以及具有強大處理和存儲能力的分布式計算平臺。
發明內容
本發明所要解決的技術問題是:提供一種基于分布-收斂模型的文獻聚類方法,利用分布-收斂模型構建共現矩陣,解決了單個計算節點有限內存難以存儲與處理大矩陣而導致的無法聚類或聚類效率低等難題。
本發明為解決上述技術問題采用以下技術方案:
一種基于分布-收斂模型的文獻聚類方法,包括如下步驟:
步驟1,利用分布-收斂模型構建待聚類文獻的共現矩陣;
步驟2,根據步驟1得到的共現矩陣計算待聚類文獻的相近度矩陣;
步驟3,對步驟2得到的相近度矩陣進行標準化得到標準化后的矩陣;
步驟4,對步驟3標準化后的矩陣,利用離差平方和法進行層次聚類,得到最終聚類結果。
優選的,提取待聚類文獻的關鍵詞構建共現矩陣CMn×n,共現矩陣CMn×n的每一行代表一個關鍵詞、每一列代表一個關鍵詞,且第i行與第i列所代表的關鍵詞相同;共現矩陣第i行第j列的元素cmij代表待聚類文獻中同時出現第i行代表的關鍵詞與第j列代表的關鍵詞的文獻的篇數,i=1,…,n,j=1,…,n。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510706636.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種推送歌曲的方法及裝置
- 下一篇:用戶數據導入方法及系統





