[發(fā)明專利]一種基于事故災(zāi)害新聞的信息結(jié)構(gòu)化方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011116412.3 | 申請(qǐng)日: | 2020-10-19 |
| 公開(公告)號(hào): | CN112269949B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 俞一奇;邱彥林;陳尚武 | 申請(qǐng)(專利權(quán))人: | 杭州敘簡(jiǎn)科技股份有限公司 |
| 主分類號(hào): | G06F16/9537 | 分類號(hào): | G06F16/9537;G06F16/951;G06F16/335;G06F16/31;G06F40/151;G06F40/289;G06F18/214;G06N3/08;G06N3/0442 |
| 代理公司: | 杭州易中元兆專利代理有限公司 33341 | 代理人: | 葉衛(wèi)強(qiáng) |
| 地址: | 310023 浙江省杭州市五常*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 事故 災(zāi)害 新聞 信息 結(jié)構(gòu) 方法 | ||
1.一種基于事故災(zāi)害新聞的信息結(jié)構(gòu)化方法,其特征在于:包括以下步驟:S1:利用網(wǎng)絡(luò)爬蟲,對(duì)事先設(shè)定好的各大門戶網(wǎng)站爬取新聞數(shù)據(jù)作為初始語料庫;
S2:利用深度學(xué)習(xí)方法構(gòu)建事故災(zāi)害抽取模型,并用S1獲取的新聞數(shù)據(jù)樣本訓(xùn)練模型;
S3:將抽取模型部署到分析系統(tǒng)中,對(duì)實(shí)時(shí)獲取的每一條新聞抽取其事故類型和事故要素,并采用匹配、查找的算法將事故要素轉(zhuǎn)化成標(biāo)準(zhǔn)格式后存入到數(shù)據(jù)庫中;
所述S2包括以下步驟:S21:標(biāo)注樣本:通過BIO標(biāo)注方式,對(duì)采集到的新聞數(shù)據(jù)標(biāo)注其中的事故類型和事故要素,事故類型包括?;?、礦山、交通、建筑施工、火災(zāi)、工商貿(mào),事故要素包括發(fā)生時(shí)間、發(fā)生地點(diǎn)、受傷人數(shù)、死亡人數(shù)、經(jīng)濟(jì)損失;
S22:劃分?jǐn)?shù)據(jù)集:將標(biāo)注完的新聞數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,其中測(cè)試數(shù)據(jù)集占20%;
S23:構(gòu)建模型:采用ALBERT、Bi-LSTM和CRF組合的方式實(shí)現(xiàn);ALBERT的輸入為新聞句子的字符,這些字符包括中文字符、英文單詞、數(shù)字和標(biāo)點(diǎn)符號(hào),內(nèi)容長度不超過512,記為n;
輸出為每一個(gè)字符經(jīng)計(jì)算得到的向量,向量維度大小為128,因此最終輸出為n×128(x1,x2,…,xn);將每一個(gè)字符對(duì)應(yīng)的向量xi,依次作為Bi-LSTM的輸入,經(jīng)過循環(huán)計(jì)算,得到每一個(gè)LSTM單元的輸出向量yi,yi的維度大小為23,yi的含義為23種標(biāo)簽對(duì)應(yīng)的概率值,Bi-LSTM的最終輸出為n×23(y1,y2,…,yn);將每一個(gè)單元輸出的概率值通過CRF層得到最終結(jié)果路徑;
S24:將訓(xùn)練數(shù)據(jù)集作為模型的輸入,根據(jù)損失函數(shù)計(jì)算loss值,反向傳播訓(xùn)練模型,訓(xùn)練過程中,使用測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行測(cè)試,將模型預(yù)測(cè)的結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比較,計(jì)算準(zhǔn)確率,若準(zhǔn)確率超過95%或迭代次數(shù)大于預(yù)設(shè)最大次數(shù),則完成了整個(gè)訓(xùn)練過程,若準(zhǔn)確率沒有達(dá)到要求,則返回繼續(xù)迭代訓(xùn)練;
所述S3包括以下步驟:
S31:通過網(wǎng)絡(luò)爬蟲爬取預(yù)先設(shè)定的新聞源網(wǎng)站,利用HTML標(biāo)簽提取新聞的正文,并且過濾掉圖片、外部鏈無關(guān)的內(nèi)容;
S32:對(duì)提取到的新聞?wù)膬?nèi)容進(jìn)行預(yù)處理,包括:去除內(nèi)容中的字符亂碼;當(dāng)新聞內(nèi)容包含大量圖片且新聞內(nèi)容字?jǐn)?shù)少于50字符時(shí),則舍棄該條新聞,返回步驟S31;
S33:取新聞內(nèi)容的前3句話作為摘要,輸入到事故災(zāi)害抽取模型中,輸出預(yù)測(cè)概率最大的標(biāo)簽路徑;
S34:解析標(biāo)簽路徑,判斷其中是否含有事故類型標(biāo)簽,若有則同時(shí)將提取到的事故要素和事故類型一起保存;若沒有,說明該條新聞不是事故災(zāi)害新聞,則舍棄該條新聞并返回步驟S31;
S35:對(duì)抽取到的時(shí)間要素進(jìn)行格式轉(zhuǎn)換,將新聞涉及到的“月”、“日”、“時(shí)”、“點(diǎn)”、“分”;或者“今天”、“昨天”、“上午”、“下午”、“凌晨”;又或者是前兩種的組合,通過使用正則表達(dá)式,將事故發(fā)生時(shí)間轉(zhuǎn)換為YYYY-MM-dd的格式;
S36:對(duì)抽取到的地點(diǎn)要素進(jìn)行格式轉(zhuǎn)換;首先根據(jù)中國地名庫建立各省市區(qū)的詳細(xì)地名表并采用樹型結(jié)構(gòu)存儲(chǔ);對(duì)抽取到的地點(diǎn)要素進(jìn)行結(jié)巴分詞,并根據(jù)結(jié)巴的詞性標(biāo)注功能過濾出地點(diǎn)名詞,再與已建立的地名表進(jìn)行查找匹配,將事故發(fā)生地點(diǎn)轉(zhuǎn)化為“××省××市××區(qū)”的格式;
S37:將抽取到的受傷人數(shù)、死亡人數(shù)、經(jīng)濟(jì)損失轉(zhuǎn)成阿拉伯?dāng)?shù)字格式;若提取到的數(shù)字為中文格式,則使用正則表達(dá)式進(jìn)行匹配,并轉(zhuǎn)成阿拉伯?dāng)?shù)字格式;
S38:將標(biāo)準(zhǔn)化后的發(fā)生時(shí)間、發(fā)生地點(diǎn)、受傷人數(shù)、死亡人數(shù)、經(jīng)濟(jì)損失和事故類型存入數(shù)據(jù)庫,然后返回S31循環(huán)。
2.根據(jù)權(quán)利要求1所述的一種基于事故災(zāi)害新聞的信息結(jié)構(gòu)化方法,其特征在于:所述CRF層能加入一些約束來保證最終預(yù)測(cè)結(jié)果是有效的,這些約束能在訓(xùn)練數(shù)據(jù)時(shí)被CRF層自動(dòng)學(xué)習(xí)得到,CRF通過計(jì)算所有路徑的得分進(jìn)行訓(xùn)練和預(yù)測(cè),設(shè)每種路徑的分?jǐn)?shù)為Pi,共有N條路徑,則路徑的總分是:
其中,表示第i個(gè)LSTM單元輸出的對(duì)應(yīng)標(biāo)簽的概率值;表示第i個(gè)標(biāo)簽到第i+1個(gè)標(biāo)簽的跳轉(zhuǎn)概率,此跳轉(zhuǎn)概率屬于CRF層的參數(shù),在訓(xùn)練時(shí)會(huì)自動(dòng)學(xué)習(xí);
訓(xùn)練時(shí),損失函數(shù)定義如下,其中PRealPath代表真實(shí)路徑得分
實(shí)際預(yù)測(cè)時(shí),取得分最高的路徑作為最終結(jié)果,即Ppredict=max(P1+P2+…+PN)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州敘簡(jiǎn)科技股份有限公司,未經(jīng)杭州敘簡(jiǎn)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011116412.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 災(zāi)害判斷系統(tǒng)和判斷方法
- 災(zāi)害播報(bào)方法及系統(tǒng)
- 一種評(píng)價(jià)地質(zhì)災(zāi)害影響程度的灰色關(guān)聯(lián)分析方法
- 基于大數(shù)據(jù)的地質(zhì)災(zāi)害監(jiān)測(cè)方法及監(jiān)測(cè)系統(tǒng)
- 災(zāi)害模型群服務(wù)鏈編排方法及裝置、終端、存儲(chǔ)介質(zhì)
- 多聯(lián)機(jī)系統(tǒng)的控制方法和裝置
- 一種露天礦幫坡自然災(zāi)害過程事件重要性分析方法
- 一種氣象災(zāi)害風(fēng)險(xiǎn)研判方法及系統(tǒng)
- 一種面向?yàn)?zāi)害應(yīng)急的災(zāi)害鏈構(gòu)建與災(zāi)害分析方法
- 一種基于臺(tái)風(fēng)-暴雨-洪澇鏈?zhǔn)綖?zāi)害的風(fēng)險(xiǎn)度量方法





