[發(fā)明專利]特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法有效
| 申請?zhí)枺?/td> | 201911258365.3 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111008274B | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設計)人: | 余正濤;王曉涵;相艷;郭軍軍;黃于欣 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/951;G06N3/04;G06N3/08;G06F40/284;G06F40/169 |
| 代理公司: | 昆明人從眾知識產(chǎn)權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 擴展 卷積 神經(jīng)網(wǎng)絡 案件 觀點 識別 構建 方法 | ||
1.特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:
所述方法的具體步驟如下:
Step1、構建案件微博數(shù)據(jù)庫;
Step2、對案件微博數(shù)據(jù)庫中的評論進行標注,形成案件微博評論的訓練集和測試集;
Step3、利用textRank算法對案件的多個微博原文進行關鍵詞的抽取;
Step4、從案件原文中提取出的關鍵詞作為特征擴展和訓練集案件微博評論向量化后進行拼接得到新的向量;
Step5、將從案件原文中提取出的關鍵詞作為特征擴展和案件微博評論向量化后進行拼接得到新的向量作為輸入來訓練卷積神經(jīng)網(wǎng)絡,再把測試集輸入到訓練好的卷積神經(jīng)網(wǎng)絡進行觀點句的識別分類。
2.根據(jù)權利要求1所述的特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、采用基于Scrapy框架的爬蟲從新浪微博上爬取相關案件微博原文及評論;
Step1.2、再對案件微博原文及評論進行過濾篩選,從而構建案件微博數(shù)據(jù)集,最終得到案件微博的數(shù)據(jù)庫;
過濾篩選的方式如下所示:
Step1.2.1、對微博博文按照轉發(fā)關系“//”進行劃分,用于保證轉發(fā)微博下面的評論是基于原始微博進行分析的;
Step1.2.2、刪除微博評論里“@+用戶名+回復”這樣的結構,且刪除無關超鏈接廣告;
Step1.2.3、對連續(xù)出現(xiàn)多個標點符號情況,采用首位標點符號進行替換,并去除微博評論內(nèi)容中的表情符號;
Step1.2.4、對小于七個字符的評論數(shù)據(jù)進行過濾篩除,用于保證評論內(nèi)容的完整和可用性。
3.根據(jù)權利要求1所述的特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:所述步驟Step2中:
案件微博數(shù)據(jù)庫的評論數(shù)據(jù)采用人工標注,以一條微博原文為單位對包含的評論數(shù)據(jù)進行標注工作;
其中,一句微博評論中既包含觀點又包含案件相關要素,標注為0;其他視為非觀點句,標注為1;三人盲判取交集,最終獲得觀點句的標注結果。
4.根據(jù)權利要求1所述的特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:所述步驟Step3的具體步驟如下:
Step3.1、把案件微博原文文本分割成若干個完整的句子,每個句子需要過濾掉停用詞,并只保留指定的詞性的詞,即名詞、動詞,形成句子和詞的集合;
Step3.2、基于句子和詞的集合構建候選關鍵詞圖G=(V,E),其中V為節(jié)點集,由生成的候選關鍵詞組成;
Step3.3、然后采用共現(xiàn)關系構造任兩點之間的邊計算出每個詞節(jié)點的權重,每個節(jié)點的權重如式(1)所示:
其中,D為阻尼系數(shù),Wji為詞Vj與詞Vi的連接權重,Wjl為詞Vj與詞Vl之間的連接權重,T代表一個詞的textRank值;
Step3.4、對節(jié)點的權重進行倒序排序,指定需要的關鍵詞個數(shù),最后得到案件微博原文的關鍵詞。
5.根據(jù)權利要求1所述的特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:所述步驟Step4的具體步驟如下:
Step4.1、把整個評論句和獲取的關鍵詞組輸入到嵌入層中;其中每個評論句子由n個詞組成,關鍵詞組由s個詞組成;
Step4.2、將評論句和關鍵詞經(jīng)過word2vec詞向量模型處理得到d維特征的詞向量,然后將評論句中的每一個詞的詞向量后面依次拼接上關鍵詞組的詞向量,形成一個具有案件評論和關鍵詞特征的新的詞向量xi;xi表示拼接操作后第i個詞的詞向量,xi∈R(s+1)d,其中i=1,2,…n;評論句表示為xi,xi+1,…,xi+n-1;
Step4.3、循環(huán)執(zhí)行步驟Step4.2,使得每一個評論句都對關鍵詞組進行拼接操作后形成卷積層的輸入。
6.根據(jù)權利要求1所述的特征擴展卷積神經(jīng)網(wǎng)絡的案件微博觀點句識別構建方法,其特征在于:所述步驟Step5的具體步驟如下:
Step5.1、將從案件原文中提取出的關鍵詞作為特征擴展和案件微博評論向量化后進行拼接得到新的向量輸入到卷積層,卷積層的核心是濾波器,由不同大小的卷積核在不同范圍內(nèi)抽取評論的局部信息,從而組合出案件微博評論中不同的特征;
每個卷積層都有固定大小的滑動窗口,每次只處理窗口內(nèi)的信息;窗口的大小定義為k,在卷積操作中有連續(xù)k個詞向量獲得新的特征值ci,xi:i+k-1表示輸入評論句中第i個詞到i+k-1個詞的卷積的操作過程用式(2)表示為:
ci=f1(w·xi:i+k-1+b) (2)
其中,濾波器的權重矩陣定義為w∈Rk×d,b為偏置項,f1為激活函數(shù);抽取出的特征向量C用式(3)表示為:
C=[c1,c2,…,cn-k+1] (3)
其中,C∈Rn-k+1;i=1,2,…n,n是每個評論句子中詞的個數(shù);
Step5.2、經(jīng)過了卷積層的操作后,案件微博評論中的觀點和案件的相關特征表現(xiàn)明顯,在此基礎上,池化層從不同窗口的特征集合中篩選出微博評論中包含的相關特征;對于得到的案件微博評論特征向量C進行max-pooling生成最大的特征值用式(4)表示為:
Step5.3、在池化層的特征值通過多個不同大小的濾波器生成的特征值進行組合獲得情感分類特征v;經(jīng)過全連接層的操作將特征進一步量化,從而抽取到更深層的語義特征v′,量化的過程用式(5)表示為:
v′=w′·v+b (5)
其中,w′為全連接層訓練的權重矩陣,b為偏置項;
Step5.4、v′經(jīng)過全連接層,獲得了多個特征類別范圍內(nèi)的估計值,需要做歸一化的處理,采用softmax分類函數(shù)決策出最大概率的類別,用式(6)表示為:
p=softmax(v′) (6)
其中,softmax為分類器,p表示評論句最終特征所屬的概率大小為0或1,如果是1,則表示該評論句不是觀點句,如果是0,則該評論句是觀點句,從而能判別出案件微博評論句屬于觀點句還是非觀點句;
Step5.5、通過步驟Step5.1-Step5.4訓練出卷積神經(jīng)網(wǎng)絡,再把測試集輸入到訓練好的卷積神經(jīng)網(wǎng)絡進行觀點句的識別分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911258365.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種自動化取藥架
- 下一篇:一種去甲醛的空氣凈化裝置
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





