[發明專利]一種文檔建模方法有效
| 申請號: | 201710617657.6 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107357927B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 李雙印;潘嶸 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F16/38 |
| 代理公司: | 廣州越華專利代理事務所(普通合伙) 44523 | 代理人: | 陳岑 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 建模 方法 | ||
本發明公開了一種文檔建模方法,通過設計一種能夠同時利用單詞和標簽信息,以及自動利用標簽種類信息,對半結構化文檔進行有效的建模。并且利用自主補償機制,在深度玻爾茲曼機中,學習不同種類的標簽信息對文檔建模的作用,可以充分考慮不同標簽種類的異構信息,從而學習到更加有效的半結構化文檔向量。
技術領域
本發明涉及文檔處理和建模技術,更具體的,涉及一種文檔建模處理方法。
背景技術
所謂半結構化文檔,就是指那些含有豐富的標簽信息的文檔數據,例如擁有類別信息,標題,作者,日期等結構信息的網頁文本等。隨著互聯網的發展,越來越多的半結構化文本數據出現在各種網絡應用中。將這種包含標簽(Tag)信息的文本數據統稱為半結構化文本數據(Semi-StructuredDocuments)。如何有效地對這種半結構化文本數據進行建模成為一個研究熱點。傳統上,對半結構化文檔數據進行建模的有效手段是利用基于貝葉斯概率圖模型的主題模型(Topicmodel)。這種建模手段主要建立在詞袋模型的假設下,同時對標簽數據與文檔中的單詞信息進行建模,利用標簽信息的主題一致性信息,將文本映射到隱含的主題空間。在這個過程中,模型利用標簽信息,構建文本的主題分布,利用單詞的詞袋模型作為輸入,從而獲得標簽的主題分布,文檔的主題分布等。利用這種信息,可以進行文本檢索,分類,文檔聚類,標簽推薦等數據挖掘任務。
隨著深度學習在文本建模上的廣泛使用,利用深度玻爾茲曼機(deep Boltzmannmachine)對文檔建模也成為一種有效的手段。深度玻爾茲曼機是一種包含多層受限玻爾茲曼機(restricted Boltzmann machine)的深度神經網絡,主要由若干受限玻爾茲曼機構成。而受限玻爾茲曼機(簡稱RBM)是一種生成式隨機神經網絡,主要由一個可見層與一個隱含層構成的一種網絡映射結構。在進行文檔建模時,常規的操作方式是將文檔中的單詞和標簽同時表示為詞袋模型,然后輸入到深度玻爾茲曼機的可見層,經過多層的受限玻爾茲曼機的映射,最終獲得文檔向量。
然而,上述現有的技術存在以下缺點:不論基于貝葉斯概率圖模型的主題模型,或深度玻爾茲曼機技術,都忽略了標簽信息的種類問題。標簽的種類信息,在半結構化文檔數據中,是天然存在的結構化信息,能夠很好的反應文本的主題分布信息。對于半結構化文檔數據,標簽信息是屬于不同種類的。比如一篇文檔的標簽天然地存在不同的種類,而且不同的種類可以完全異構。例如新聞網頁具有一系列作者標簽,也具有日期標簽,新聞分類標簽等等。在對半結構化文檔數據進行建模時,需要考慮不同種類的標簽對文檔建模的影響。不論基于貝葉斯概率圖模型的主題模型,或深度玻爾茲曼機,都沒有對標簽信息的種類進行直接建模。而且,不同種類的標簽信息,對文本的向量生成是起到不同的作用的。這就必須提出一套能夠自動利用不同種類標簽信息的建模方法,以確保在文本建模中充分考慮不同種類的標簽信息,從而更加有效的獲得半結構化文本向量。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。
為此,本發明的目的在于,通過設計一種能夠同時利用單詞和標簽信息,以及自動利用標簽種類信息,對半結構化文檔進行有效的建模。并且利用自主補償機制,在深度玻爾茲曼機中,學習不同種類的標簽信息對文檔建模的作用,可以充分考慮不同標簽種類的異構信息,從而學習到更加有效的半結構化文檔向量。
為實現上述目的,本發明提供一種文檔建模的方法,包括以下步驟:
步驟1,首先將文檔中的單詞w使用主題模型進行向量映射,得到單詞信息的向量,作為
步驟2,將文檔中的各類標簽信息m1,…,mt,使用標準受限玻爾茲曼機進行向量映射,得到所有標簽種類的向量表達并存于
步驟3,使用預設的自主補償型深度玻爾茲曼機的學習算法構建整個網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710617657.6/2.html,轉載請聲明來源鉆瓜專利網。





