[發明專利]基于自適應子空間學習的迭代文本聚類方法有效
| 申請號: | 201310230981.4 | 申請日: | 2013-06-09 |
| 公開(公告)號: | CN103279556A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 吳嫻;楊興鋒;張東明;何崑 | 申請(專利權)人: | 南方報業傳媒集團 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/66 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 楊曉松 |
| 地址: | 510601 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 空間 學習 文本 方法 | ||
1.基于自適應子空間學習的迭代文本聚類方法,其特征在于,包括以下步驟:
(1)初始化:將文本語料表示成文本向量空間的數學形式,在文本向量空間上采用仿射傳播聚類方法產生初始的K個聚類,進而得到表示文本語料中所有文檔所屬類別的初始類歸屬指示矩陣;
(2)子空間投影和聚類之間的迭代優化,包括以下步驟:
(2-1)以步驟(1)中獲得的初始類歸屬指示矩陣作為先驗知識,采用基于平均鄰域邊緣最大化的子空間學習方法求解子空間投影矩陣,并且基于初始類歸屬指示矩陣和子空間投影矩陣計算收斂函數值;
(2-2)若未滿足收斂條件,則將原始文本向量空間根據當前子空間投影矩陣投影到子空間中,在子空間中繼續采取仿射傳播聚類方法產生指定K個聚類,更新當前的類歸屬指示矩陣;
(2-3)以更新后的類歸屬指示矩陣作為先驗知識,采用基于平均鄰域邊緣最大化的子空間學習方法求解子空間投影矩陣,并且基于更新后的類歸屬指示矩陣與子空間投影矩陣計算收斂函數值;
(2-4)重復步驟(2-2)-(2-3),直到滿足收斂條件,停止迭代,從迭代過程輸出最終的類歸屬指示矩陣,得到所有文檔的最終聚類結果。
2.根據權利要求1所述的基于自適應子空間學習的迭代文本聚類方法,其特征在于,所述步驟(1)初始化過程如下:從所有文檔的分詞表達中采用互信息方法選擇出一組代表性詞項的集合構成詞項索引;然后根據詞項索引分別將每個文檔表示為一個文本向量,則每個文本向量的維數即對應于選擇出的詞項索引的大小,向量的每個元素值用tfidf權重表示;若每個文檔都用文本向量表示,則文本語料中所有文檔即構成一個文本向量空間;在原始文本向量空間中采取仿射傳播聚類算法產生指定K個初始聚類,每個文檔獲得其初始類別,將所有文檔的初始聚類類別匯總形成初始類歸屬指示矩陣。
3.根據權利要求2所述的基于自適應子空間學習的迭代文本聚類方法,其特征在于,所述步驟(1)中,向量每個元素值用tfidf權重表示,方法如下:
對于詞項索引中的某個詞項ti,文檔xj的tfidf權重表示為:
其中tfi,j表示詞項ti在文檔xj中出現的詞頻,|D|是文本語料中所有文檔的數量,dfi是詞項ti至少出現過一次的文檔數量,假設詞項索引為v=[t1、t2,…,tm],則文檔xj表示為m維向量xj=[tfidf1,j,tfidf2,j,…,tfidfm,j]T。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方報業傳媒集團,未經南方報業傳媒集團許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310230981.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力計量設備數據采集方法
- 下一篇:一種氯噻啉與呋蟲胺復配殺蟲劑





