[發明專利]一種文檔建模方法有效
| 申請號: | 201710617657.6 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107357927B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 李雙印;潘嶸 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F16/38 |
| 代理公司: | 廣州越華專利代理事務所(普通合伙) 44523 | 代理人: | 陳岑 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 建模 方法 | ||
1.一種文檔建模方法,其特征在于,包括以下步驟:
步驟1,首先將文檔中的單詞w使用主題模型進行向量映射,得到單詞信息的向量,作為
步驟2,將文檔中的各類標簽信息m1,…,mt,使用標準受限玻爾茲曼機進行向量映射,得到所有標簽種類的向量表達并存于
步驟3,使用預設的自主補償型深度玻爾茲曼機的學習算法構建整個網絡;
步驟4,將該文檔的和作為輸入,輸入到訓練好的自主補償型深度玻爾茲曼機,獲得該自主補償型深度玻爾茲曼機的最高層輸出h(t);
步驟5,h(t)為該文檔的向量表示;
其中,所述步驟4具體為:
步驟41,設置一個t層的深度玻爾茲曼機,其包含t個隱含層,和1個可見層,設置t種不同種類的補償信息;
步驟42,從所述t種補償信息中選取隨機一種補償信息與所述可見層連接起來,作為新的輸入,與下一層隱含層構成一個受限玻爾茲曼機;
步驟43,從上述步驟選取的補償信息之外的t-1中補償信息中隨機選擇一個補償信息,與上一層使用的補償信息連接起來,與對應的隱含層一起構成一個受限玻爾茲曼機;
步驟44,重復步驟43,直至所述t種補償信息全部連接起來,與對應的第t層隱含層構成最高層的受限玻爾茲曼機;
其中,步驟3中所述自主補償型深度玻爾茲曼機的學習算法具體為:
步驟31,設置補償信息候選集合mleft,此時已選補償信息集合mselected為空;
步驟32,選取深度玻爾茲曼機中的一層,使用上一層的輸出h(k)作為該層的可見層輸入,并執行公式
從mleft中選擇出某一種補償信息標號,放入mselected中,并從mleft中剔除;
步驟33,訓練該層的補償型深度玻爾茲曼機,并輸出h(k+1);
步驟34,重復步驟32和33,直至mleft為空。
2.根據權利要求1所述的一種文檔建模方法,其特征在于,
使用如下的目標函數進行自主決策補償信息:
其中,λ為模型空間參數,設置為常數,v為一個指示向量,只有一維為1,其它維度都為0。
3.根據權利要求1所述的一種文檔建模方法,其特征在于,
一個具有t層的補償型深度玻爾茲曼機{w,h(1),…,h(t),m(1),…,m(t)}的能量函數為:
其中,|m|t=m1|m2|…|mt表示將t種補償信息的向量連接起來作為補償層;為模型參數;W1,…,Wt為深度玻爾茲曼機各個層之間的參數,為相應的補償層參數。
4.根據權利要求1所述的一種文檔建模方法,其特征在于,
所述文檔為半結構化文檔數據,設置標簽信息作為網絡的補償信息,標簽信息的種類數量作為補償信息種類數。
5.根據權利要求1所述的一種文檔建模方法,其特征在于,使用ContrastiveDivergence算法訓練補償型深度玻爾茲曼機。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710617657.6/1.html,轉載請聲明來源鉆瓜專利網。





