[發(fā)明專利]基于偏最小二乘的文本語義提取方法無效
| 申請?zhí)枺?/td> | 200810036392.1 | 申請日: | 2008-04-21 |
| 公開(公告)號: | CN101261624A | 公開(公告)日: | 2008-09-10 |
| 發(fā)明(設(shè)計)人: | 曾雪強;李國正 | 申請(專利權(quán))人: | 上海大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海上大專利事務(wù)所 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 最小 文本 語義 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本語義提取方法,特別是一種利用偏最小二乘分析文本結(jié)構(gòu)的文檔語義提取方法。
背景技術(shù)
對于文本的語義分析對于提高文檔分析的性能具有十分顯著的效果。特別是隨著信息化和實際生活中各類電子文檔的大量增加,文檔的自動語義分析在有著越來越重要的應(yīng)用價值。比如數(shù)字圖書館、信息檢索、文本分類、垃圾郵件過濾等等應(yīng)用問題,語義知識的分析均是相關(guān)的關(guān)鍵技術(shù)之一。
文本語義提取的方法分為兩大類:手工標(biāo)定和自動抽取。手工標(biāo)定的方法又可以分為完全手工和半手工標(biāo)定。其特點是準(zhǔn)確度比較高,但需要領(lǐng)域?qū)<业膮⑴c。由于領(lǐng)域?qū)<抑R的獲取有很大的成本,限制了這種方法的應(yīng)用。自動抽取的方法利用文檔集內(nèi)在的統(tǒng)計特性,提取潛在語義。語義的提取過程自動完成,不需要領(lǐng)域?qū)<业膮⑴c;其缺點是提取出的語義的可解釋性稍差。
自動語義提取技術(shù)在實際問題中已有比較廣泛的應(yīng)用,但常規(guī)方法在語義提取過程中并未考慮類標(biāo)信息。比如最常用的潛在語義索引(Latent?Semantic?Indexing:LSI)方法,利用奇異值分解得到對原始文檔集具有最大解釋能力的潛在語義,而并未利用任何有監(jiān)督問題中的類標(biāo)信息。
在有監(jiān)督問題中,如何快速有效的提取出文檔的潛在語義是自動語義提取技術(shù)的難點之一。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種適用于有監(jiān)督問題的基于偏最小二乘的文本語義提取方法,能可靠、快速的提取文檔語義。
為了實現(xiàn)這個目的,本發(fā)明的構(gòu)思是:文本先采用向量空間模型表示成向量形式,這樣可以得到文檔集矩陣X和其對應(yīng)的類標(biāo)信息矩陣Y,然后利用偏最小二乘模型對X和Y進(jìn)行分析,抽取出文檔的潛在語義,最后在提取出的語義空間進(jìn)行文本的各種分析。
根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案:
一種基于偏最小二乘的文本語義提取方法,其特征在于將文檔在向量空間模型表示后,利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,提取出對原始數(shù)據(jù)具有最大表示能力同時又與類標(biāo)信息相關(guān)的潛在語義,而后在該語義空間上進(jìn)行文檔分析。其具體操作步驟如下:
(1)文檔預(yù)處理,包括中文分詞(將連續(xù)的文檔拆分為一個個獨立的詞,英文文檔可省略本步驟)和去除停用詞(如中文的“的”、“了”,英文的“the”、“a”等無具體意義的詞)兩個步驟;
(2)統(tǒng)計詞頻,建立文檔的在向量空間模型下的向量表示,得到數(shù)據(jù)矩陣X和類別矩陣Y;
(3)基于矩陣X和矩陣Y,進(jìn)行偏最小二乘分析,得到各個潛在語義的投影方向;
(4)利用得到的語義投影方向,得到待分析文檔在語義空間上的語義表示;
(5)在新的語義空間下,對文檔進(jìn)行各種分析。
上述的基于偏最小二乘的文本語義提取方法,所述的步驟(3)中的偏最小二乘分析的具體算法如下:
輸入:數(shù)據(jù)矩陣X、類別矩陣Y、閾值ε(缺省為0.01)
輸出:語義投影方向矩陣Ξ
E0=X;F0=Y(jié);
k=0;ESP=||E0||;
DO?WHILE?ESP>ε
k=k+1;
uk=Fk-1的第一行;
DO?until?ξk收斂
ξk=ξk/||ξk||;
tk=Ek-1ξk;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué),未經(jīng)上海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810036392.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





