[發明專利]混合的深度神經網絡CNN和RNN的主題句識別方法在審
| 申請號: | 201710047031.6 | 申請日: | 2017-01-20 |
| 公開(公告)號: | CN106776580A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 張志勇;任江濤 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/02 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 深度 神經網絡 cnn rnn 主題 識別 方法 | ||
1.一種混合的深度神經網絡CNN和RNN的主題句識別方法,其特征在于,包括以下步驟:
S1:利用搜狗實驗室中的全網新聞數據集訓練出詞向量,使得每個相近詞在空間上的距離相近;
S2:從百度旅游網站和螞蜂窩旅游網站各爬取600篇的游記,對游記分割成句子,將這些句子分為訓練集和測試集并且按照8:2的比例進行劃分,然后對于訓練集根據信息熵和互信息的計算公式計算出每個詞的信息熵值和互信息值;
S3:對于訓練集中每個句子根據S1計算出的詞向量和S2計算出的信息熵和互信息來構建特征,作為構建的混合深度神經網絡CNN_RNN的輸入,獲取到參數;
S4:同樣的對測試集中每個句子根據S1計算出的詞向量和S2計算出的信息熵和互信息來構建特征,輸入到深度神經網絡CNN_RNN中,利用S3得到的參數,計算出其類別,得出標準結果和預測的誤差,評價其性能。
2.根據權利要求1所述的混合的深度神經網絡CNN和RNN的主題句識別方法,其特征在于,所述步驟S1的具體過程如下:
S11:首先下載搜狗實驗室中全網新聞數據集,并且對數據集進行清洗,得出每條完整的新聞;
S12:對數據集進行分詞,寫入到文件中,詞與詞之間用“/t”分開,新聞和新聞之間用”/n”分開;
S13:調用python的gensim中的word2vec工具,對詞進行無監督的訓練,得到其詞向量表示。
3.根據權利要求2所述的混合的深度神經網絡CNN和RNN的主題句識別方法,其特征在于,所述步驟S2的具體過程如下:
S21:對于訓練集中每個句子進行分詞,去除停用詞,對每個句子得到一個詞的集合,統計出主題句中每個詞的出現頻數和非主題句中每個詞的出現頻數;
S22:計算出每個詞的信息熵值IG,公式計算如下:
其中,K是系數,n代表類別個數,pi代表每個詞出現在類別i的概率,同時,設定頻數閾值,對于頻數小于3的詞,不考慮其值;
S23:計算出每個詞的在不同類別中互信息值,公式計算如下:
對于“愉悅”這個詞來說,p(愉悅,主題句)表示愉悅出現在主題句中的次數,同理p(愉悅,非主題句)代表“愉悅”這個詞出現在非主題句中的次數;
對每個詞的PMI值計算公式如下:
PMI(愉悅)=PMI(愉悅,主題句)/PMI(愉悅,主題句)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710047031.6/1.html,轉載請聲明來源鉆瓜專利網。





