[發明專利]特征擴展卷積神經網絡的案件微博觀點句識別構建方法有效
| 申請號: | 201911258365.3 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111008274B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 余正濤;王曉涵;相艷;郭軍軍;黃于欣 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/951;G06N3/04;G06N3/08;G06F40/284;G06F40/169 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 擴展 卷積 神經網絡 案件 觀點 識別 構建 方法 | ||
本發明涉及特征擴展卷積神經網絡的案件微博觀點句識別構建方法,屬自然語言處理領域。本發明包括:構建案件微博數據庫;對案件微博數據庫中的評論進行標注,形成案件微博評論的訓練集和測試集;對案件的多個微博原文進行關鍵詞的抽取;從案件原文中提取出的關鍵詞作為特征擴展和訓練集案件微博評論向量化后進行拼接得到新的向量;將關鍵詞作為特征擴展和案件微博評論向量化后進行拼接得到新的向量作為輸入來訓練卷積神經網絡,再把測試集輸入到訓練好的卷積神經網絡進行觀點句的識別分類。本發明實現了從案件微博原文中獲取關鍵詞作為特征擴展,從獲取的輿情數據中識別出所需觀點句,為后續對觀點句進行情感傾向性分析提供了支撐。
技術領域
本發明涉及特征擴展卷積神經網絡的案件微博觀點句識別構建方法,屬于自然語言處理技術領域。
背景技術
案件微博是指與案件相關熱點事件為焦點的互聯網微博。與一般的新聞微博相比,案件微博能夠在短時間內引發案件相關熱點話題,導致社會輿情爆發。如能及時地處理這一類輿情事件的相關信息,從獲取的輿情數據中識別出所需觀點句,對觀點句進行情感傾向性分析,正確地引導輿情,就能有效的降低輿情事件造成的負面影響。
發明內容
本發明提供了特征擴展卷積神經網絡的案件微博觀點句識別構建方法,以用于對案件微博觀點句進行識別,解決了案件微博觀點句識別準確率低和單一模型識別能力不足等問題。
本發明的技術方案是:特征擴展卷積神經網絡的案件微博觀點句識別構建方法,所述方法的具體步驟如下:
Step1、構建案件微博數據庫;
Step2、對案件微博數據庫中的評論進行標注,形成案件微博評論的訓練集和測試集;
Step3、利用textRank算法對案件的多個微博原文進行關鍵詞的抽取;
Step4、從案件原文中提取出的關鍵詞作為特征擴展和訓練集案件微博評論向量化后進行拼接得到新的向量;
Step5、將從案件原文中提取出的關鍵詞作為特征擴展和案件微博評論向量化后進行拼接得到新的向量作為輸入來訓練卷積神經網絡,再把測試集輸入到訓練好的卷積神經網絡進行觀點句的識別分類。
作為本發明的優選方案,所述步驟Step1的具體步驟為:
Step1.1、采用基于Scrapy框架的爬蟲從新浪微博上爬取相關案件微博原文及評論;
Step1.2、再對案件微博原文及評論進行過濾篩選,從而構建案件微博數據集,最終得到案件微博的數據庫;
過濾篩選的方式如下所示:
Step1.2.1、對微博博文按照轉發關系“//”進行劃分,用于保證轉發微博下面的評論是基于原始微博進行分析的;
Step1.2.2、刪除微博評論里“@+用戶名+回復”這樣的結構,且刪除無關超鏈接廣告;
Step1.2.3、對連續出現多個標點符號情況,采用首位標點符號進行替換,并去除微博評論內容中的表情符號;
Step1.2.4、對小于七個字符的評論數據進行過濾篩除,用于保證評論內容的完整和可用性。
作為本發明的優選方案,所述步驟Step2中:
案件微博數據庫的評論數據采用人工標注,以一條微博原文為單位對包含的評論數據進行標注工作;
其中,一句微博評論中既包含觀點又包含案件相關要素,標注為0;其他視為非觀點句,標注為1;三人盲判取交集,最終獲得觀點句的標注結果。
作為本發明的優選方案,所述步驟Step3的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911258365.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動化取藥架
- 下一篇:一種去甲醛的空氣凈化裝置





