[發明專利]一種基于最大熵話題模型的在線文檔分類方法及裝置在審
| 申請號: | 201410645904.X | 申請日: | 2014-11-12 |
| 公開(公告)號: | CN104391902A | 公開(公告)日: | 2015-03-04 |
| 發明(設計)人: | 施天麟;朱軍 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 最大 話題 模型 在線 文檔 分類 方法 裝置 | ||
1.一種基于最大熵話題模型的在線文檔分類方法,其特征在于,所述方法包括:
S1,獲取訓練文檔集,提取所述訓練文檔集中每個文檔的每個單詞對應的第一隱式話題特征,并根據所有所述第一隱式話題特征在最大熵話題模型詞典上的分布得到第一特征向量;
S2,根據所述第一特征向量更新最大熵話題模型的詞典;根據所述第一特征向量以及最大熵話題模型的分類損失函數更新最大熵話題模型的分類器權值;
S3,針對待識別文檔,提取所述待識別文檔中每個單詞對應的第二隱式話題特征,并根據所有所述第二隱式話題特征在最大熵話題模型詞典上的分布得到第二特征向量;
S4,將所述第二特征向量與S2中的分類器權值進行點積;
S5,選取點積值最大的分類器權值所對應的類別作為所述待識別文檔的類別。
2.根據權利要求1所述的方法,其特征在于,所述最大熵話題模型采用以下公式表示:
minqKL[q(w,Φ,zd)||qt(w,Φ)p0(zd)p(xd|Φ,zd)]+2c·l∈(q(w,zd);xd,yd)
其中,KL為分布之間的相對熵,w為分類器權值,Φ為詞典,xd表示文檔,zd表示文檔xd中每個單詞對應的隱式話題特征,yd表示文檔xd的類別,c為控制損失函數的常數參量,l∈(q(w,zd);xd,yd)為分類損失函數。
3.根據權利要求2所述的方法,其特征在于,當所述分類損失函數為時,所述S1中第一隱式話題特征在最大熵話題模型詞典上的分布采用以下公式表示:
其中,τd為拉格朗日乘子,為期望算子,為第一隱式話題特征;
所述S2中采用以下公式更新最大熵話題模型的詞典:
其中q(Φk)為詞典第k行的分布,狄利克雷分布更新公式為
所述S2中采用以下公式更新分類器權值:
其中,Z為歸一化常數,
4.根據權利要求2所述的方法,其特征在于,當所述分類損失函數為時,所述S1中第一隱式話題特征在最大熵話題模型詞典上的分布采用以下公式表示:
其中,Ψ為雙伽馬函數,ζd=∈-ydf(w,zd),λd為輔助變量;
所述S2中采用以下公式更新最大熵話題模型的詞典:
其中q(Φk)為詞典第k行的分布,
所述S2中采用以下公式更新分類器權值:
其中,為第一隱式話題特征,
5.根據權利要求1至4任一項所述的方法,其特征在于,所述S2之后還包括:
S2a,判斷所述分類器權值更新次數是否達到預設次數,若是,則執行S3,否則返回執行S1。
6.一種基于最大熵話題模型的在線文檔分類裝置,其特征在于,所述裝置包括:
第一提取模塊,用于獲取訓練文檔集,提取所述訓練文檔集中每個文檔的每個單詞對應的第一隱式話題特征,并根據所有所述第一隱式話題特征在最大熵話題模型詞典上的分布得到第一特征向量;
更新模塊,用于根據所述第一特征向量更新最大熵話題模型的詞典;根據所述第一特征向量以及最大熵話題模型的分類損失函數更新最大熵話題模型的分類器權值;
第二提取模塊,用于針對待識別文檔,提取所述待識別文檔中每個單詞對應的第二隱式話題特征,并根據所有所述第二隱式話題特征在最大熵話題模型詞典上的分布得到第二特征向量;
計算模塊,用于將所述第二特征向量與更新模塊中得到的分類器權值進行點積;
選取模塊,用于選取點積值最大的分類器權值所對應的類別作為所述待識別文檔的類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410645904.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁熱力圖的加載方法和裝置
- 下一篇:基于網頁的平面印刷品排版方法及系統





