[發明專利]一種利用局部嵌入話題建模的文本表示方法有效
| 申請號: | 201710332228.4 | 申請日: | 2017-05-12 |
| 公開(公告)號: | CN107220311B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 羅森林;劉望桐;潘麗敏;毛炎穎;魏超 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 局部 嵌入 話題 建模 文本 表示 方法 | ||
本發明涉及一種利用局部嵌入話題建模的文本表示方法,屬于計算機科學與信息檢索技術領域。在該方法中,根據文本在詞空間的歐氏距離選取近鄰集,構造局部加權正則項,把正則項加入傳統的自編碼網絡進行訓練獲得模型,進而構造一個顯示映射函數,并最終利用編碼網絡抽取樣本外文檔的向量表示。本發明引入局部加權正則項,有效地保持文本所在空間的內部固有幾何結構。此外,本發明生成了一個觀測空間和低維流形之間的顯式嵌入映射,提供了一種從樣本外文本提取嵌入向量表示的簡便方法。
技術領域
本發明涉及一種利用局部嵌入話題建模的文本表示方法,屬于計算機科 學與信息檢索技術領域。
背景技術
近年來,網絡的快速發展使得文本信息比例急速增長,這對信息檢索技 術提出了更高的要求。文本表示作為信息檢索的關鍵技術對于提升信息的有 效獲取具有重要意義。文本表示是將包含大量字符,非結構化的文檔集合, 轉化為半結構或結構化的數據結構,進而方便計算機利用聚類,分類技術進 行信息檢索。經典的文本表示方法是空間向量模型(VSM),它將組成文檔 集合的所有詞匯作為特征,并根據每篇文本中每個特征詞的詞頻信息組成一 個向量來表示該文本。但是這種表示由于孤立地看待每個詞匯,忽略了詞的 多義和歧義性,因為在實際的信息檢索中效果有限。
針對該問題的改進工作包括概率潛層語義分析(PLSA)和隱性狄利克雷 分布(LDA)。它們是一種話題模型,即假設每個文本是由一系列潛在話題 按照一定比例混合生成,其中,每個話題又是通過詞語的某種概率分布決定。 和PLSA不同的是,LDA將文本的話題混合比例假設為狄利克雷隨機變量來 進行建模,這使得LDA能夠定義一種文本級別的概率生成模型,可以有效 解決樣本外文本話題建模問題。但是,它們是將文本空間看作歐式空間來挖 掘隱藏話題的,這種做法并沒有考慮文檔所在的空間的內部固有幾何結構, 也沒有考慮如何提取樣本外文本的話題表示。對于利用局部嵌入話題建模的 文本表示方法,主要解決:①保持文本所在的空間的內部固有幾何結構,以 區分文本在詞語概率分布上的差異性;②計算觀察結果和低維流形之間的嵌 入映射y=fΘ(x)。
基于PLSA的話題模型包括:拉普拉斯概率潛層語義索引(LapPLSI)、 局部連續話題建模(LTM),和區別性話題模型(DTM)。
在PLSA中,n(di,wj)表示單詞wj出現在文本di中的次數,n(di,wj)與 K個隱含話題變量{z1,z2,···,zK}中的一個變量有關。形式上,這個生成過程 被描述如下:選擇一個概率為P(di)的文本di;選擇一個概率為P(zk|di)的潛層 話題(類)zk;產生一個概率為P(wj|zk)的單詞wj;
1.拉普拉斯概率潛層語義索引(LapPLSI):
它的目標是最大化正則對數似然函數,如下所示:
λ是正則化參數,W是一個測量基于詞共現的文本對的局部相似度的 N×N矩陣。從這些數據點的最鄰近曲線,得出邊界權重矩陣W,定義 如下:
Np(di)表示這組p的最鄰近文本di.
2.局部連續話題建模(LTM):
LTM采用KL散度作為一個正則項,等式定義如下:
矩陣W和上面的相同,概率分布P(z|di)和P(z|dj)的KL散度是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710332228.4/2.html,轉載請聲明來源鉆瓜專利網。





