[發明專利]一種基于范圍卷積神經網絡的文本分類方法在審
| 申請號: | 201911153950.7 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN110888996A | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 王佳英;單菁;許景科;李雅欣;邵明陽 | 申請(專利權)人: | 沈陽建筑大學 |
| 主分類號: | G06F16/45 | 分類號: | G06F16/45;G06N3/04 |
| 代理公司: | 重慶市信立達專利代理事務所(普通合伙) 50230 | 代理人: | 陳炳萍 |
| 地址: | 110000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 范圍 卷積 神經網絡 文本 分類 方法 | ||
本發明公開了一種基于范圍卷積神經網絡的文本分類方法,涉及文本分類技術領域,其技術方案要點是:包括以下步驟:1)進行預處理,表示出固定大小的文本文檔矩陣;2)設W表示輸入文檔,利用wi表示文本文檔中位置i的單詞,并將整個文本文檔看做一向量序列;3)采用范圍表示文本文檔中單詞之間距離的約束;4)定義k?作用域序列;5)利用k范圍卷積來捕獲文本文檔局部信息,定義k域級聯集;6)使用激活函數對k域級聯集中每個元素進行計算;7)對k范圍卷積層輸出執行最大池操作,選擇和記錄每個范圍中最獨特特性。能夠靈活捕獲復雜文本文檔的局部特征,并選擇文本文檔范圍中最有價值的特性,從而顯著提高文本文檔分類的準確性和精準度。
技術領域
本發明涉及文本分類技術領域,更具體地說,它涉及一種基于范圍卷積神經網絡的文本分類方法。
背景技術
當今,非結構化文本數據在電子郵件中無處不在,文本有非常豐富的來源,如網頁、社交網絡、問答系統和電子商務等。但是由于文本的非結構化的特性,從中提取信息并不是一個容易的任務。文本分類的目標是自動將文本文檔分類為一個或多個預定義的類別。文本分類也是目前學術界廣泛使用的一種分類方法,并在工業領域中起著重要的作用,同時也應用于情緒分析、主題建模,垃圾郵件偵測、語言翻譯以及意圖檢測等許多領域。
目前,深度神經網絡在眾多自然語言處理(NLP)應用中取得了巨大的成功。卷積神經網絡(CNN或ConvNet)是一種特殊類型的深度前饋網絡,它通常由輸入層、輸出層和多個隱式層(卷積層、池化層、全連接層)構成。對于CNN模型,卷積層是成功的關鍵。卷積層的主要任務是檢測局部特征,這一特點使得CNN能夠在使用更少參數時更加深入。CNN的主要思想是受到動物視覺皮層的組織啟發,個體大腦皮層神經元只在大腦的一個特定區域對刺激做出反應視野被稱為接受域。對于文本文檔,這種接受域可以表示為一個語義塊短語、從句、習語甚至句子。
現有技術中的文本分類方法通常是利用一個滑動窗口來執行卷積操作,因為語義塊可能是不同的大小,這些方法通常采用不同窗口大小的過濾器來提取多尺度特征,每一個過濾器用來捕獲固定窗口長度的局部特征。
現有技術中的文本分類方法的不足是缺乏靈活性,因為用戶必須為文本選擇一組窗口大小,通常情況下,用戶不知道什么才是最佳的選擇。因此,它往往需要更努力去尋找窗口的最佳組合,這使得實現高效文本分類任務變得困難。
發明內容
本發明的目的是提供一種基于范圍卷積神經網絡的文本分類方法,利用一個概念范圍進行卷積運算,并基于范圍卷積運算能夠靈活捕獲復雜文本文檔的局部特征,然后利用最大池,能夠進一步選擇文本文檔范圍中最有價值的特性,從而能夠顯著提高對文本文檔分類的準確性,提高數據分類的精準度,且靈活性強。
本發明的上述技術目的是通過以下技術方案得以實現的:一種基于范圍卷積神經網絡的文本分類方法,包括以下步驟:
1)進行預處理,采用預先訓練的單詞向量替換文本文檔中的單詞,將文本文檔填充到相同的長度,將可變長度的文本文檔轉換為固定大小的n×m維矩陣的輸入文本,其中n為文檔的長度,m為預訓練單詞的維數向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽建筑大學,未經沈陽建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911153950.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能鎖
- 下一篇:一種礦區土壤復合改良劑及礦區土壤改良方法





