[發明專利]一種融合規則與深度學習的汽車新聞事件抽取方法有效
| 申請號: | 201810638065.7 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN110633409B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 黃海量;韓松喬 | 申請(專利權)人: | 上海財經大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F40/284;G06F40/289;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 上??剖⒅R產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 規則 深度 學習 汽車新聞 事件 抽取 方法 | ||
1.一種融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,包括:
文本預處理步驟,獲取網絡新聞文本數據,包括新聞語料和百科數據,對所述網絡新聞文本數據進行文本預處理,基于預處理后的新聞語料和百科數據形成訓練集,對詞向量和字向量進行訓練;
基于規則的基模型構建步驟,提取汽車行業新聞事件所需抽取的關鍵屬性,建立適用于汽車領域的本體知識庫,構建基于規則的基模型;
深度學習神經網絡訓練步驟,搭建并訓練用于判斷事件類別的BiLSTM+CRF網絡;
事件抽取步驟,基于所述BiLSTM+CRF網絡對未標注新聞語料進行識別,獲取對應的事件類別;
所述本體知識庫包括公司詞庫、高管職位詞庫、觸發詞庫、事件結果詞庫、被動詞否定詞詞庫和新聞發生時態詞庫;
所述基模型用于與本體知識庫中的詞庫進行詞語匹配,找到新聞事件中的觸發詞,再根據觸發詞所對應的不同規則模式來抽取其它相應的事件元素,
所述規則模式包括:
1)主被動公司關系模式
[主動公司,新聞發生時態,觸發詞,被動公司,事件結果]
2)單個公司事件模式
[主動/被動公司,新聞發生時態,觸發詞,事件結果]
3)合作重組事件模式
[主動公司,主動公司,新聞發生時態,觸發詞,事件結果]
4)倒裝事件模式
[主動公司,新聞發生時態,股票機構,觸發詞,事件結果]。
2.根據權利要求1所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,所述獲取網絡新聞文本數據的具體過程包括:
步驟101:獲取一段歷史時間內的所有新聞信息的網址;
步驟102:提取需要的新聞信息及整個頁面信息,并將每個新聞存儲為一個文件,形成新聞語料;
步驟103:使用爬蟲技術獲取百科數據。
3.根據權利要求1所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,對所述新聞語料的文本預處理具體為:
步驟201:將原有的新聞用空格作為每條新聞結束的標志將新聞重新進行劃分,數據集的存儲格式為:
News=[{original_news1,segmentation1,time1},{original_news2,segmentation2,time2,{},…}
其中,original_news為原始新聞標題,segmentation為用結巴分詞對原始新聞標題進行分詞后的結果,time為爬取到的新聞發布時間;
步驟202:剔除編碼錯誤的數據。
4.根據權利要求3所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,對詞向量和字向量的訓練過程中,
訓練字向量時,對每個字之間用空格作為分隔符來訓練;訓練詞向量時,用結巴分詞對詞語進行初步分詞,然后輸入Word2Vec進行詞向量的訓練。
5.根據權利要求1所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,所述提取汽車行業新聞事件所需抽取的關鍵屬性包括:
采用半監督機器學習算法從新聞文本中挖掘關鍵屬性,構成新聞事件抽取的關鍵屬性體系。
6.根據權利要求1所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,所述BiLSTM+CRF網絡訓練時,以所述基模型的抽取結果和標注樣本作為訓練集。
7.根據權利要求1所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,所述事件抽取步驟具體包括:
步驟701:讀取待抽取的文本語料,對語料進行預處理;
步驟702:對于每一個句子進行分詞處理,判斷詞語中是否包含觸發詞;
步驟703:判斷分詞后的每一個詞語是否出現在事件角色詞典中,標注事件角色特征,所述事件角色詞典包括公司詞庫和高管職位詞庫;
步驟704:提取事件句中詞語的特征,包括詞語基本特征以及詞語的上下文環境特征,生成統一格式文件,采用訓練好的所述BiLSTM+CRF網絡進行預測;
步驟705:循環處理事件句,完成事件抽取任務。
8.根據權利要求7所述的融合規則與深度學習的汽車新聞事件抽取方法,其特征在于,所述步驟704中,對于每一種角色類別選擇預測概率最大的詞語作為最終的事件元素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海財經大學,未經上海財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810638065.7/1.html,轉載請聲明來源鉆瓜專利網。





