[發明專利]一種基于張量分解的文本增量降維方法有效
| 申請號: | 201910314107.6 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110209758B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 向陽;丁玲 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F17/16 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 張量 分解 文本 增量 方法 | ||
本發明涉及一種基于張量分解的文本增量降維方法,通過將文本數據劃分為多個子集并對每一個子集構建文本特征圖簇,將其表示為二階張量,然后將多個二階張量加上特征維度組成三階張量并對此三階張量進行分解,根據分解后的關系矩陣可以得到降維后的文本特征是由哪些特征詞及特征詞關系組成,從而實現增量文本降維的目標。與現有技術相比,本發明具有高效降維、簡單精確、適用于大量數據等優點。
技術領域
本發明涉及機器學習與自然語言信息處理領域,尤其是涉及一種基于張量分解的文本增量降維方法。
背景技術
隨著互聯網、物聯網、云計算等信息技術的發展,網絡空間中的數據資源正以前所未有的速度不斷地增長和積累,世界已經進入了網絡化的大數據時代。大數據除在數據量上具有海量化特性以外,在數據屬性上還具有離散化、多元化、非結構化等復雜特性,這導致數據“維度災難”呈爆發趨勢,其結果將嚴重影響數據分析和決策支持的準確性和效率。為了對數據進行更好的利用,需要對數據進行降維處理。數據降維是將數據從高維空間映射到低維空間,去除無關或冗余的數據,保留反映原數據本質的數據。利用降維后的數據進行數據搜索、數據處理、數據挖掘等任務,可以提高效率和準確率。
在互聯網時代,文本數據是非常重要和廣泛使用的一種數據形式之一,且具有維數高、數據量大、語義豐富等特點。現有的各種數據降維方法,如主成分分析法、線性判別分析、潛在語義分析等大都以統計理論為基礎,在結構化數據降維方面效果頗佳,但是忽略了數據中蘊含的語義,往往導致降維結果偏差嚴重、準確率低下。不研究降維中語義保持問題,將導致語義丟失的降維結果,這對大數據應用將是致命的打擊。因此,如何在拓展原有理論和方法的基礎上,研究適用于大數據特征的新型數據降維理論與方法成為大數據時代的挑戰。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于張量分解的文本增量降維方法。
本發明的目的可以通過以下技術方案來實現:
一種基于張量分解的文本增量降維方法,包括以下步驟:
1)將輸入文本數據劃分為多個子集,對每個子集進行文本特征圖簇的構建,并將每個特征圖簇表示為特征詞-特征詞的二階張量形式;
2)在二階張量的基礎上增加一個特征維度,構成特征詞-特征詞-特征的三階張量形式;
3)采用交替最小二乘法對三階張量進行Tucker分解降維,獲取用以表示各個維度上主成分之間關系的核心張量以及三個因子矩陣;
4)通過特征詞維度、特征維度與降維后的關系矩陣獲取降維后的文本特征,從而劃分出文本特征中的特征詞和特征詞關系,實現文本增量降維。
所述的步驟1)中,將每個特征圖簇表示為特征詞-特征詞的二階張量形式具體為:
將文本特征圖簇中的特征圖按照特征圖內的特征詞之間的關系表示為|V|行|V|列的方陣形式,則將該|V|行|V|列的方陣作為一個二階張量,其中,第一階和第二階均為唯一化后的特征詞,二階張量中的分量用以表示特征詞之間的關系權值。
所述的步驟2)中,構成特征詞-特征詞-特征的三階張量形式具體包括:
將多個時間點的文本特征圖簇中的特征圖形成的二階張量一起合并為三階張量;
或將新的文本特征圖簇形成的三階張量與上一個基于張量分解降維的文本特征圖簇重構后得到的三階張量合并為新的三階張量。
所述的步驟3)中,三階張量χ∈RI×J×K的Tucker分解為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910314107.6/2.html,轉載請聲明來源鉆瓜專利網。





