[發明專利]一種基于循環注意力機制的文檔快速掃描定性方法有效
| 申請號: | 201711350432.5 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108170736B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 楊維永;張寧;馬超;劉凱樂;何軍;賴業寧;季葉飛;朱進;從正海;朱世順;郭靚;林學峰 | 申請(專利權)人: | 南瑞集團有限公司;國家電網公司;南京信息工程大學;國網江蘇省電力有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 注意力 機制 文檔 快速 掃描 定性 方法 | ||
本發明公開了一種基于循環注意力機制的文檔快速掃描定性方法,獲取訓練數據集,在預處理階段,將整個文檔轉換為詞向量矩陣,詞向量矩陣通過含有循環注意力機制的文檔檢測模型,包括卷積神經網絡模塊、最大池化模塊、循環神經網絡模塊,利用回報函數得出回報值reward,訓練循環神經網絡,優化模型參數,測試模型準確率。本發明的方法基于注意力機制,引入了強化學習的訓練方法,適應性更強,并且不需要對全文進行檢索,而是通過處理文檔中的局部信息,智能快速的預測出文檔中特定的位置,在有限的次數內,快速掃描探索找出最能夠代表文檔特征的句子,即分類概率最大的句子,這些句子能夠最大化的表示該文檔的類型。
技術領域
本發明涉及自然語言處理和文檔分類技術領域,特別涉及一種基于循環注意力機制的文檔快速掃描定性方法。
背景技術
自然語言處理(NLP)技術是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。目前NLP最流行的方法還是機器學習尤其是深度學習,比如Word Embedding(詞嵌入)、RNN(循環神經網絡)、LSTM(長短期記憶網絡)、CNN(卷積神經網絡)等主流的深度神經網絡在NLP中的應用,這已經是目前主流的研究方向。目前,在文檔定性分類方面,最經典的結構就是CNN(卷積神經網絡),它的結構比較簡單,使用長度不同的filter(濾波器)對文檔矩陣進行卷積,filter的寬度等于詞向量的長度,然后使用max-pooling(最大池化)對每一個filter提取的向量進行操作,最后每一個filter對應一個數字,把這些filter拼接起來,就得到了一個表征該句子的向量,最后的預測都是基于該句子的。該模型作為一個經典的模型,是很多其他領域論文里的實驗參照。
但是對于文檔定性,比如CNN(卷積神經網絡)、LSTM(長短期記憶網絡)等方法,大多數適用于短文檔。但對于長文檔,這些方法會導致模型變得非常龐大,并不適用。用關鍵詞方法檢索敏感信息,這種方法需要對全文進行檢索,準確性不高,效率低下,缺乏了上下文的關聯性,并且有些關鍵詞并不主導文檔的主要性質。
發明內容
本發明的目的在于,提出一種基于循環注意力機制的文檔快速掃描定性方法,通過若干次探索找出最能夠代表文檔特征的句子,即分類概率最大的句子,在給定的步數里面,最快的掃描檢測出含有標簽的那些句子,從而對文檔作定性分析。
本發明采用如下技術方案,一種基于循環注意力機制的文檔快速掃描定性方法,該方法首先需要訓練一個由卷積神經網絡、循環神經網絡以及強化學習結合起來的端到端的模型,所使用的訓練數據是大量的文檔及其標簽(該標簽即為文檔的類別),訓練目標是通過幾次對文檔的句子做探索,可以最大化的輸出最能夠代表該文檔特征的若干句子,這些句子能夠最大化的表示該文檔的性質類型,其特征在于,具體步驟如下:
(1)獲取訓練數據集,擬定數據集中的文檔的標簽;
(2)在預處理階段,將文檔分成句子,再對句子進行分詞,然后對每一個詞使用word2vec詞向量訓練模型將其轉化為詞向量,由此將句子轉化成一個由詞向量組成的矩陣,從而將整個文檔轉換為詞向量矩陣;
(3)詞向量矩陣通過含有循環注意力機制的文檔檢測模型,包括卷積神經網絡模塊、最大池化模塊、循環神經網絡模塊,具體步驟為:
31)隨機選取一個位置t,利用一個一維的卷積神經網絡來提取位置t的句子的每個詞的語義信息特征,再經過最大池化降維,輸出每個句子的特征向量;
32)將每個句子的特征向量和上個時間步驟輸出的隱含狀態ht-1一起輸入到循環神經網絡中進行編碼,然后輸出當前時間的隱含狀態ht;
33)將循環神經網絡輸出的隱含狀態ht輸入到一個強化學習模塊,輸出對下一個位置的索引預測Lt+1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南瑞集團有限公司;國家電網公司;南京信息工程大學;國網江蘇省電力有限公司,未經南瑞集團有限公司;國家電網公司;南京信息工程大學;國網江蘇省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711350432.5/2.html,轉載請聲明來源鉆瓜專利網。





