[發明專利]一種基于復合神經網絡的景區異常事件抽取方法在審
| 申請號: | 201811486378.1 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109670172A | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 羅笑南;賀昭榮;鐘艷如;李芳;汪華登 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 觸發 異常事件 卷積神經網絡 抽取 景區 復合神經 記憶網絡 全局特征 語義特征 詞向量 數據預處理 人工標注 事件類型 原始文本 詞類型 泛用性 分類器 分類 語料 句子 網絡 文本 轉換 | ||
本發明公開了一種基于復合神經網絡的景區異常事件抽取方法,該方法是對獲取的事件原始文本語料進行數據預處理,事件句轉換為詞向量,將其序列傳入到雙向長短時記憶網絡,利用雙向長短時記憶網絡來訓練得到每個候選觸發詞的語義特征;再將以詞向量表示的事件句序列傳入到卷積神經網絡中,利用卷積神經網絡訓練得到候選觸發詞所在事件句的全局特征;通過綜合候選觸發詞的語義特征與候選觸發詞所在句子的全局特征,利用softmax作為分類器來對每個候選觸發詞進行分類,從而找出景區異常事件的觸發詞,并根據人工標注的觸發詞類型來將事件類型分類。本發明能夠快速準確的抽取景區異常事件,處理繁復冗雜文本中的異常事件,效率高且泛用性佳。
技術領域
本發明涉及自然語言處理技術領域,具體是一種基于復合神經網絡的景區異常事件抽取方法。
背景技術
隨著國內計算機互聯網技術的普及,景區游客的日益增加,景區內部的事件監控也面臨越來越大的壓力。如何從獲取的海量信息文本中提取出有用的異常事件并進行分類成為了一個亟待解決的問題。作為信息抽取的一環,事件抽取是信息抽取的研究熱點,其研究內容是自動的從自然文本中獲取特定類型的事件和元素。
從文本中抽取相應的事件通常是要識別事件觸發詞來實現,因此人工標記的事件觸發詞是時間識別的關鍵要素。
在目前對于異常突發事件的抽取方法中,還是經常性的使用文本框架來進行格式化抽取以及使用支持向量機SVM的分類器進行文本分類,但是這類方法對非線性數據集無法達到很好的分類效果,并且過于依賴觸發詞,導致因候選觸發詞模糊時容易造成判斷錯誤;再者頻繁的事件信息并無法規范化語法,當前方法缺乏從不規范語句中進行事件抽取的研究。
發明內容
本發明的目的在于克服現有技術的不足,而提供一種基于復合神經網絡的景區異常事件抽取方法,該方法可以消除普通的機器學習分類及觸發詞依賴造成的過多錯誤,并處理不規范語句的異常信息。
實現本發明目的的技術方案是:
一種基于復合神經網絡的景區異常事件抽取方法,包括如下步驟:
S1、對事件原始語料的原始文本進行數據預處理,對原始文本進行清洗和分句,得到事件句,然后對事件句進行分詞和命名體識別,根據人工標注的異常事件信息,將事件句進行序列標注,觸發詞根據其類型進行標注,非觸發詞類別標注為無,得到事件句序列并將事件句序列轉換為詞向量的形式;
S2、將以詞向量表示的事件句序列輸入到雙向長短時記憶網絡,利用雙向長短時記憶網絡來訓練得到每個候選觸發詞的語義特征;
S3、將以詞向量表示的事件句序列傳入到卷積神經網絡中,利用CNN卷積神經網絡訓練得到候選觸發詞所在事件句的全局特征;
S4、根據步驟S2得到的候選觸發詞的語義特征和步驟S3得到的候選觸發詞所在事件句的全局特征,選擇softmax模型設計分類器進行事件分類,找出相關異常事件的觸發詞,匹對相應的觸發詞類型,判斷事件類別。
步驟S1的具體步驟為:
S1-1、先用正則表達式將事件原始語料內無關字符去除,再采用自然語言處理工具對語料的原始文本進行分句,分詞和命名體識別,使語料的原始文本以分割的事件句和每句切分好的若干個詞匯來顯示,即事件句表達為L={x1,x2,…,xi,…,xn},其中xi為句子中第i個詞,n表示事件句長度;
S1-2、根據步驟1)分詞和命名體識別得到的事件句L,對事件句L進行人工標注,在標注過程中,將非觸發詞標記為無類型,觸發詞根據所屬新聞事件類別進行標注,得到事件句序列;
S1-3、通過開源工具包word2vec訓練文本得到詞向量,采用skip-gram模型,根據訓練得到的詞向量,將事件句序列中每個詞表述為一個200長度的向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811486378.1/2.html,轉載請聲明來源鉆瓜專利網。





