[發明專利]一種基于地震新聞事件的地震數據結構化自動方法在審
| 申請號: | 202010799527.0 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN111950199A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 俞一奇;邱彥林;陳尚武 | 申請(專利權)人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F16/951;G06K9/62;G06N3/04 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 311121 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 地震 新聞 事件 數據結構 自動 方法 | ||
1.一種基于地震新聞事件的地震數據結構化自動方法,其特征在于,包括如下步驟:
步驟(1):利用網絡爬蟲爬取地震網站的相關新聞;預先選取地震新聞源網站并設置對應的XPath路徑,爬蟲會自動下載新聞列表中的所有新聞;
步驟(2):通過BIO標注方式,對采集到的新聞數據標注其中的觸發詞和事件要素;
步驟(3):將標注完的新聞數據集隨機劃分為訓練數據集和測試數據集,其中測試數據集占20%;
步驟(4):構建地震事件抽取模型,地震事件抽取模型采用Bi-LSTM和CRF組合的方式實現;
步驟(5):訓練步驟(4)構建的地震事件抽取模型;
步驟(6):將訓練好的地震事件抽取模型部署到實際應用中。
2.根據權利要求1中所述的一種基于地震新聞事件的地震數據結構化自動方法,其特征在于,步驟(1)中的觸發詞是先決條件,只有檢測到觸發詞,認為是地震事件,才會進一步提取事件要素;
觸發詞用于判斷是否為地震事件,包含‘地震’關鍵詞,若檢測到觸發詞,則認為是地震事件;事件要素包含發生時間、震中位置、震源深度、震級、受傷人數、死亡人數、直接經濟損失這7類內容;其中,“B-事件要素”代表某一要素的開頭,“I-事件要素”代表某一要素的中間,“O”代表非事件要素。
3.根據權利要求1中所述的一種基于地震新聞事件的地震數據結構化自動方法,其特征在于,步驟(4)的具體流程如下:
(4.1)、地震事件抽取模型輸入為新聞內容的字符,內容長度任意,記為n;首先通過word2vec模塊將每一個字符轉化為對應的向量xi;word2vec模塊是一個已經訓練完成的開源字符向量庫,其中收錄了中文字符、英文字母、標點符號等常用字符,且每一個字符對應的向量xi維度大小均為100;查找新聞內容每一個字符對應的向量,該word2vec模塊最后輸出為n×100(x1,x2,…,xn),其中Λ代表長度為100的向量,此步驟目的是使新聞內容數字化;
(4.2)、將上一步驟(4.1)中每一個字符對應的向量xi,依次作為Bi-LSTM模塊的輸入,經過循環計算,得到每一個LSTM單元的輸出向量yi,向量yi的維度大小為17,向量yi的含義為17種標簽對應的概率值,該Bi-LSTM模塊最后輸出為n×17(y1,y2,…,yn),其中Λ代表長度為17的向量;
(4.3)、將上一步驟(4.2)中每一個單元輸出的概率值通過CRF層得到最終結果路徑;CRF層加入一些約束來保證最終預測結果是有效的,這些約束可以在訓練數據時被CRF層自動學習得到;CRF通過計算所有可能路徑的得分進行訓練和預測,設每種可能的路徑的分數為Pi,共有N條路徑,則路徑的總分是
其中,表示第i個LSTM單元輸出的對應標簽的概率;表示第i個標簽到第i+1個標簽的跳轉概率,此跳轉概率屬于CRF層的參數,在訓練時會自動學習;
訓練時,損失函數定義如下:
其中PRealPath代表真實路徑得分;
實際預測時,取得分最高的路徑作為最終結果,即
Ppredict=max(P1,P2,…,PN)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州敘簡科技股份有限公司,未經杭州敘簡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010799527.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新能源汽車防過熱充電槍
- 下一篇:一種油水分離釜





