[發明專利]基于偏最小二乘的文本語義提取方法無效
| 申請號: | 200810036392.1 | 申請日: | 2008-04-21 |
| 公開(公告)號: | CN101261624A | 公開(公告)日: | 2008-09-10 |
| 發明(設計)人: | 曾雪強;李國正 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海上大專利事務所 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 最小 文本 語義 提取 方法 | ||
1.一種基于偏最小二乘的文本語義提取方法,其特征在于將文檔在向量空間模型表示后,利用偏最小二乘模型對數據進行分析,提取出對原始數據具有最大表示能力同時又與類標信息相關的潛在語義,而后在該語義空間上進行文檔分析,其具體操作步驟如下:
a.文檔預處理。包括中文分詞和去除停用詞步驟;
b.統計詞頻,建立文檔在向量空間模型下的向量表示,得到數據矩陣X和類別矩陣Y;
c.基于矩陣X和矩陣Y,進行偏最小二乘分析,得到各個潛在語義的投影方向;
d.利用得到的語義投影方向,得到待分析文檔在語義空間上的語義表示;
e.在新的語義空間下,對文檔進行各種分析。
2.根據權利要求1所述的基于偏最小二乘的文本語義提取方法,其特征在于所述的步驟(3)中的偏最小二乘分析的具體方法如下:
輸入:數據矩陣X、類別矩陣Y、閾值ε,缺省為0.01,
輸出:語義投影方向矩陣Ξ
E0=X;F0=Y;
k=0;ESP=||E0||;
DO?WHILE?ESP>ε
k=k+1;
uk=Fk-1的第一行;
DO?until?ξk收斂
ξk=ξk/||ξk||;
tk=Ek-1ξk;
ENDDO
ESP=||Ek||;
ENDDO
Ξ=[ξ1,ξ2,…ξK]。
3.根據權利要求1所述的基于偏最小二乘的文本語義提取方法,其特征在于所述的步驟(4)中,給定文檔向量xT,其對應的在潛在語義空間的表示tT的計算方法如下:
tT=xTΞ
=(xTξ1,xTξ2,…xTξK)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810036392.1/1.html,轉載請聲明來源鉆瓜專利網。





