[發明專利]一種基于深度學習的文本表示與分類方法在審
| 申請號: | 201810409742.8 | 申請日: | 2018-05-02 |
| 公開(公告)號: | CN108573068A | 公開(公告)日: | 2018-09-25 |
| 發明(設計)人: | 胡向東;許奧狄;錢宏偉;周巧;唐賢倫 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本表示 分類 自然語言 測度 卷積神經網絡 詞袋模型 局部連接 模型抽取 輸入文檔 文本分類 文本特征 信念網絡 摘要文本 專業詞匯 自動捕獲 傳統的 實時性 高維 降維 權重 文檔 稀疏 學習 標簽 共享 高層 | ||
本發明涉及一種基于深度學習的文本表示與分類方法,屬于自然語言領域。涉及利用深度信念網絡DBN、深度波爾茨曼機DBM和卷積神經網絡CNN三類深度學習模型,解決文本表示與分類中傳統的基于詞袋模型BOW文本表示的分類方法存在的高維度、高稀疏和難以處理標簽數目不確定、包含大量專業詞匯的專業摘要文本問題。本發明充分利用DBM模型自動捕獲文本特征對輸入文檔進行降維、DBN模型抽取高層文檔、CNN模型權重共享及局部連接的優勢;本發明設計了一個針對文本表示和文本分類的高效模型,具有較高的F測度值、良好ROC曲線和實時性強的優點。
技術領域
本發明屬于自然語言領域,涉及一種基于深度學習的文本表示和文本分類方法。
背景技術
信息檢索(Information Retrieval)是對信息進行表示、存儲、組織和存取,是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。在信息檢索中,文本是信息的主要載體,各種形式的信息均通過文本標注來表示,從而文本信息在信息檢索中占據重要地位。
在“互聯網+”的時代,信息數據急劇增長,信息的表現方式也多種多樣。其中,文本相比于圖像和聲音,網絡資源占用少,易于上傳和下載。越來越多的網絡用戶在網絡新聞媒體、社區平臺抒發自己的情感、觀點和評論。同時,越來越多的網絡用戶通過在網絡上了解生物醫學,科技領域這些與自己生活息息相關的話題和最新成果。網絡用戶在新聞網站、生物醫學網站、科技領域、社交平臺和門戶網站上的活躍度日益劇增,加速了文本數據的規模效應,我們已經從“信息匱乏”時代步入“信息過載”時代。人們在“信息過載”時代面臨的問題已經不再是如何獲取信息,已經轉變為如何準確的獲取用戶所需的信息。傳統手段是通過人工對海量原始文檔進行標注和自動分類,存在花費時間長、分類結果不夠理想的缺點,因此傳統的方式已經無法適應在“互聯網+”時代對爆炸式增長的數字信息的管理和檢索需求。從而,如何快速準確有效的把文本信息反饋給用戶,使用戶能夠檢索出自己所需的信息已經成為業界關注和研究的焦點。
文本分類(Text Classification)能夠有效的處理和解決信息雜亂的問題,有助于用戶有效檢索出自己所需要的信息。文本分類在信息的高效管理和利用方面有著非常重要的意義,因此也是處理文本信息的核心手段。在文本分類中,文本表示(TextRepresentation)又是文本分類的基石,因為文本需要轉換為計算機算法能夠處理的形式,所以文本表示的準確度直接影響著自然語言處理(NLP)的結果表現。
在當前的文本表示和分類任務中,傳統的基于BOW模型文本表示的分類方法存在以下三個問題:
(1)高維度問題。
(2)難以處理標簽數目不確定、包含大量專業詞匯的專業摘要文本。
(3)高稀疏問題。
發明內容
有鑒于此,本發明的目的在于提供一種基于深度學習的文本表示和文本分類方法,能同時解決傳統的基于BOW模型文本表示的分類方法存在的高維度、高稀疏、難以處理標簽數目不確定及包含大量專業詞匯的專業摘要文本這三個主要問題。
為達到上述目的,本發明提供如下技術方案:
一種基于深度學習的文本表示與分類方法,包括以下步驟:
S1:初始化,生成一個內容為空的離線系統數據庫,數據庫包括命名實體數據集、文檔詞集合數據集、基于深度學習的多層網絡參數三個子數據庫;
S2:將采集到的數據進行去重、清洗作為純凈數據集,將純凈數據集進行詞性標注并進行命名實體識別得到命名實體數據集,然后存入命名實體數據集子數據庫中;將純凈數據集去停用詞和詞干化處理得到文檔詞集合數據集并存入文檔詞集合數據集子數據庫中;
S3:將文檔詞數據集作為word2vec詞向量模型的輸入,得到詞向量,并在得到的詞向量中引用加權系數來表示該單詞在當前文本中的重要程度,最終得到訓練好的詞向量模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810409742.8/2.html,轉載請聲明來源鉆瓜專利網。





