[發明專利]一種融合規則與深度學習的汽車新聞事件抽取方法有效
| 申請號: | 201810638065.7 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN110633409B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 黃海量;韓松喬 | 申請(專利權)人: | 上海財經大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F40/284;G06F40/289;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 規則 深度 學習 汽車新聞 事件 抽取 方法 | ||
本發明涉及一種融合規則與深度學習的汽車新聞事件抽取方法,包括:文本預處理步驟,獲取網絡新聞文本數據,包括新聞語料和百科數據,對所述網絡新聞文本數據進行文本預處理,基于預處理后的新聞語料和百科數據形成訓練集,對詞向量和字向量進行訓練;基于規則的基模型構建步驟,提取汽車行業新聞事件所需抽取的關鍵屬性,建立適用于汽車領域的本體知識庫,構建基于規則的基模型;深度學習神經網絡訓練步驟,搭建并訓練用于判斷事件類別的BiLSTM+CRF網絡;事件抽取步驟,基于所述BiLSTM+CRF網絡對未標注新聞語料進行識別,獲取對應的事件類別。與現有技術相比,本發明具有高效、精度高、適用于汽車行業領域等優點。
技術領域
本發明涉及自然語言處理領域,具體涉及信息抽取技術領域,尤其是涉及一種融合規則與深度學習的汽車新聞事件抽取方法。
背景技術
信息抽取(Information?Extraction)是指從自然語言形式的文檔中抽取人們所感興趣的信息,并將其轉變為結構化信息的過程,包括命名實體識別、關系抽取、事件抽取。事件抽取是從非結構化的文本中抽取出用戶感興趣的事件信息,并以結構化的形式保存起來以供后續的分析應用,其在自動摘要、自動問答、信息檢索等領域有著廣泛的應用。尤其是在“互聯網+”為主導思想的新媒體強烈沖擊下,信息量呈現指數級的增長,除了易于獲得和處理數值型數據外,文本型數據中蘊藏的數量巨大、形式多樣、內容豐富的信息更值得探索。
在行業領域,尤其是汽車行業,無時無刻都在產生著海量文本型數據,主要有新聞報道和網絡輿情等,但難以獲得和處理,信息不對稱性在汽車行業文本中表現尤其顯著。然而汽車行業不斷競爭與發展,對汽車新聞事件越來越敏感。研究面向汽車領域的事件抽取對于深入分析汽車領域的文本信息、為汽車廣告投放以及制定營銷策略等具有重要意義。
由于中文表達方式多樣、語義復雜,所以目前針對于這種非結構化的中文文本信息抽取的相關研究較少。同時事件句中的事件元素往往存在不同的特征和模式,不同主題事件所包含的事件元素不同,其識別難度也不同,因此現有的研究一般針對具體的文本或事件主題設計識別任務,集中在基于規則模式或者基于機器學習的方法。基于規則模式的方法的優點是所需要的標注語料較少,甚至可以不需要標注語料,規則可解釋性強,易于調整,但該方法靈活性差,查全率較低,可移植性低。基于機器學習的方法一定程度上解決了上述問題,但學習模型效果的好壞在很大程度上依賴于訓練語料的規模和標注質量,并且運行時間和效率均會隨著語料中符號類別的多少呈線性增長。盡管這些研究取得了一定的成果,但它們與實際應用還存在較大差距。造成這一問題的根本原因是傳統方法無法找到通用的模板或機器學習模型實現各語料通用的自動抽取。其主要問題具體體現在以下方面:
1)語料標注問題。傳統的事件模板獲取方法需要人工對訓練語料進行標注,這種方法依賴于大量標注好的語料,不僅費時費力而且當訓練語料發生變化時,事件模板還需要重新提取,代價過高。
2)系統的移植性問題。為進一步減少人工標注,提高系統的移植性,學者們已經開始探索使用半監督的方法來獲取事件模板。國外學者英文語料中基于預定義種子模板應用文檔相關度方法,但是中文特點不同,詞匯表達更靈活,事件觸發詞個數更遠大于英文觸發詞。即使用從語義相似度的方法與種子模板匹配,也會存在大量的無效模板,會迅速惡化抽取結果的準確率。
上述所存在的問題,嚴重制約了事件抽取在汽車行業中的研究和應用。傳統的基于模式匹配的方法和基于機器學習的方法無法直接應用于汽車行業廣告投放以及制定營銷策略等,必須建立適應汽車行業的新型事件抽取方法。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種融合規則與深度學習的汽車新聞事件抽取方法。
本發明的目的可以通過以下技術方案來實現:
一種融合規則與深度學習的汽車新聞事件抽取方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海財經大學,未經上海財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810638065.7/2.html,轉載請聲明來源鉆瓜專利網。





