[發明專利]基于偏最小二乘的文本語義提取方法無效

申請號：	200810036392.1	申請日：	2008-04-21
公開（公告）號：	CN101261624A	公開（公告）日：	2008-09-10
發明（設計）人：	曾雪強;李國正	申請（專利權）人：	上海大學
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	上海上大專利事務所	代理人：	何文欣
地址：	200444***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于最小文本語義提取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于偏最小二乘的文本語義提取方法，其特征在于將文檔在向量空間模型表示后，利用偏最小二乘模型對數據進行分析，提取出對原始數據具有最大表示能力同時又與類標信息相關的潛在語義，而后在該語義空間上進行文檔分析，其具體操作步驟如下：

a.文檔預處理。包括中文分詞和去除停用詞步驟；

b.統計詞頻，建立文檔在向量空間模型下的向量表示，得到數據矩陣X和類別矩陣Y；

c.基于矩陣X和矩陣Y，進行偏最小二乘分析，得到各個潛在語義的投影方向；

d.利用得到的語義投影方向，得到待分析文檔在語義空間上的語義表示；

e.在新的語義空間下，對文檔進行各種分析。

2.根據權利要求1所述的基于偏最小二乘的文本語義提取方法，其特征在于所述的步驟(3)中的偏最小二乘分析的具體方法如下：

輸入：數據矩陣X、類別矩陣Y、閾值ε，缺省為0.01，

輸出：語義投影方向矩陣Ξ

E₀＝X；F₀＝Y；

k＝0；ESP＝||E₀||；

DO?WHILE?ESP＞ε

k＝k+1；

u_k＝F_k-1的第一行；

DO?until?ξ_k收斂

ξk=Ek-1Tuk/ukTuk;]]>

ξ_k＝ξ_k/||ξ_k||；

t_k＝E_k-1ξ_k；

ωk=Fk-1Ttk/tkTtk]]>

uk=Fk-1ωk/ωkTωk;]]>

ENDDO

pk=Ek-1Ttk/tkTtk;]]>

Ek=Ek-1-tkpkT;]]>

Fk=Fk-1-tkωkT;]]>

ESP＝||E_k||；

ENDDO

Ξ＝[ξ₁，ξ₂，…ξ_K]。

3.根據權利要求1所述的基于偏最小二乘的文本語義提取方法，其特征在于所述的步驟(4)中，給定文檔向量x^T，其對應的在潛在語義空間的表示t^T的計算方法如下：

t^T＝x^TΞ

＝(x^Tξ₁，x^Tξ₂，…x^Tξ_K)。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海大學，未經上海大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200810036392.1/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種水溶液可充鋰離子電池
下一篇：一種新型質子交換膜燃料電池雙極板及其制作方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】