[發明專利]一種基于多流行關聯矩陣分解的無障礙文本展現方法有效
| 申請號: | 201310217406.0 | 申請日: | 2013-06-03 |
| 公開(公告)號: | CN103345471A | 公開(公告)日: | 2013-10-09 |
| 發明(設計)人: | 卜佳俊;李平;陳純;王北斗;高珊 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 流行 關聯 矩陣 分解 障礙 文本 展現 方法 | ||
1.一種基于多流行關聯矩陣分解的無障礙文本展現方法,該方法的特征在于從互聯網抓取網頁文本后,針對文本進行以下操作:
1)對文本進行分詞,提取文本統計特征信息,包括詞頻和反向文檔頻率,形成文本的TF-IDF向量化特征表示;
2)構建若干文本流行和單詞流行,基于多流行的關聯矩陣分解考慮文本與單詞之間的對偶性,獲得低維的文本表示和單詞表示;
3)對文本的低維表示進行聚類,相同或相近主題的文本分為一組,以分組的形式重新展現文本信息。
2.如權利要求1所述的基于多流行關聯矩陣分解的無障礙文本展現方法,其特征在于:所述的步驟1)中的提取文本統計特征信息的具體步驟是:
1.1)每個網頁文本可看成一個文檔,對文本提取兩種統計信息,即詞頻(TF:Term?Frequency)和反向文檔頻率(IDF:Inverse?Document?Frequency),若文本中出現的單詞有m個,則形成m維的TF-IDF向量化特征表示;
1.2)對所有文本的TF-IDF特征表示進行統一的歸一化處理。
3.如權利要求1所述的基于多流行關聯矩陣分解的無障礙文本展現方法,其特征在于:所述的步驟2)中的構建若干文本流行和單詞流行的具體步驟是:
2.1)流行結構能夠反映數據的本征結構,它通過圖拉普拉斯矩陣進行構建,而文本流行和單詞流行能分別反映文本數據和單詞數據的本征結構;
2.2)構建文本的圖拉普拉斯矩陣Ls,首先從互聯網上獲取n個網頁文本,第i個文本的特征表示為第j個文本的特征表示為將每個文本看成無向圖上的頂點,若兩個文本的歐式距離較近,則在相應的頂點間連接一條邊并賦予邊權重,這樣可以建立一張反映文本數據流行結構的無向圖;各文本間的關聯權重組成大小為n×n的權重矩陣Ws,對Ws的每列元素依次累加并放置在對角矩陣Ds的對角線上,Ds中非對角線上的元素均置為0,則可通過Ls=Ds-Ws得到文本的圖拉普拉斯矩陣Ls;
2.3)構建若干文本的圖拉普拉斯矩陣Ls,通過賦予無向圖中所連接邊的不同權重Ws實現,即利用三種不同的權重策略:二值權重、余弦相似度和高斯核權重;若與的歐式距離較遠,即兩個頂點間無邊連接,則兩個文本的邊權重為0;若與的歐式距離較近,即兩個頂點間有邊連接,則:
a.對于二值權重,兩個文本的邊權重為1;
b.對于余弦相似度,兩個文本的邊權重為其中(·)T表示向量或矩陣的轉置;
c.對于高斯核權重,兩個文本的邊權重為其中|·|表示向量的l2范數,實數參數σ>0表示高斯核的帶寬,通過設置不同的帶寬參數,可以得到不同的高斯核權重;
2.4)構建單詞的圖拉普拉斯矩陣Lf,根據文本與單詞間的對偶性,每個單詞的特征表示維度為n,第i個單詞的特征表示為第j個單詞的特征表示為將每個單詞看成無向圖上的頂點,若兩個單詞的歐式距離較近,則在相應的頂點間連接一條邊并賦予邊權重,這樣可以建立一張反映單詞數據流行結構的無向圖;各單詞間的關聯權重組成大小為m×m的權重矩陣Wf,對Wf的每列元素依次累加并放置在對角矩陣Df的對角線上,Df中非對角線上的元素均置為0,則可通過Lf=Df-Wf得到單詞的圖拉普拉斯矩陣Lf;
2.5)構建若干單詞的圖拉普拉斯矩陣Lf,其具體方法與構建若干文本的圖拉普拉斯矩陣Ls相同。
4.如權利要求1所述的基于多流行關聯矩陣分解的無障礙文本展現方法,其特征在于:所述的步驟2)所述的的多流行關聯矩陣分解具體步驟是:
3.1)假設從互聯網獲得n個文本,這些文本涉及cs個主題,每個文本的特征表示為矩陣的列向量,則全部文本形成一個維度為m×n的數據矩陣Xs;組成文本的單詞有m個,這些單詞涉及cf個主題,每個單詞的特征表位為矩陣的列向量,則全部單詞形成一個維度為n×m的數據矩陣Xf;由于文本與單詞間的協同對偶關系,則滿足將文本和單詞數據矩陣合并為一個維度為(n+m)×(n+m)的關聯矩陣
3.2)將文本的數據矩陣分解成三部分,即其中大小為m×cf的矩陣Vf是單詞的低維表示,大小為n×cs的矩陣Vs是文本的低維表示,大小為cf×cs的矩陣Sf為壓縮的單詞數據表示;類似地,將單詞的數據矩陣分解成三部分,即其中大小為cs×cf的矩陣Ss為壓縮的文本數據表示;這樣,可得到大小為(n+m)×(cf+cs)的關聯低維表示矩陣
3.3)根據不同的權重策略分別構建q個文本流行和q個單詞流行,即和構建q個大小為(n+m)×(n+m)的關聯流行矩陣,則第i個關聯流行矩陣表示為
3.4)利用多流行的關聯矩陣分解最小化正則化的目標函數
其中,|·|F為矩陣范數,|·|為向量的l2范數,Tr(·)為矩陣的跡,正則化因子α>0和β>0分別用來調節流行結構的貢獻以及避免過擬合;通過求解該目標函數得到的文本低維表示,能夠逼近原始文本數據的本征結構,并同時保持文本數據和單詞數據的局部幾何結構,使得相同主題的文本距離盡可能接近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310217406.0/1.html,轉載請聲明來源鉆瓜專利網。





