[發(fā)明專利]一種軍事新聞長文本層次化事件抽取方法在審
| 申請?zhí)枺?/td> | 202110970577.5 | 申請日: | 2021-08-23 |
| 公開(公告)號: | CN113657090A | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 張靜;胡軍;欒瑞鵬;孫悅 | 申請(專利權(quán))人: | 中國人民解放軍32801部隊(duì) |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F40/258;G06K9/62;G06F16/35;G06F16/951 |
| 代理公司: | 北京豐浩知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11781 | 代理人: | 李學(xué)康 |
| 地址: | 100082 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 軍事新聞 文本 層次 事件 抽取 方法 | ||
本發(fā)明公開了一種軍事新聞長文本層次化事件抽取方法,其具體步驟包括,獲取軍事新聞資訊網(wǎng)頁的內(nèi)容,提取該類網(wǎng)頁中的軍事新聞文本數(shù)據(jù);進(jìn)行文本預(yù)處理,對軍事新聞文本的內(nèi)容進(jìn)行分詞和詞性標(biāo)注,對軍事新聞文本的標(biāo)題進(jìn)行分詞并構(gòu)建觸發(fā)詞,得到軍事新聞文本標(biāo)題的歸類結(jié)果;識別出軍事新聞文本中的事件句;篩選出軍事新聞文本中與觸發(fā)詞的相似度大于一定閾值的事件句;從事件句中提取事件要素,進(jìn)行角色標(biāo)注;根據(jù)事件元素的角色描述結(jié)果,進(jìn)行事件描述。本發(fā)明確定語句表達(dá)主旨的、貢獻(xiàn)度最大的詞匯作為軍事新聞的觸發(fā)詞,使用觸發(fā)詞歸類事件類別并將事件要素進(jìn)行串聯(lián),構(gòu)成篇章級別的軍事新聞超長文本的事件鏈。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種軍事新聞長文本層次化事件抽取方法。
背景技術(shù)
在自然語言處理技術(shù)領(lǐng)域,事件是指在某種時(shí)空下,一些角色圍繞某個(gè)方向開展的一系列活動。事件抽取技術(shù)是從非結(jié)構(gòu)化文本數(shù)據(jù)中,對用戶所感興趣的內(nèi)容和關(guān)鍵詞進(jìn)行提取,并以結(jié)構(gòu)化呈現(xiàn)給用戶。
軍工建設(shè)是各國國防保密的重點(diǎn),而軍事技術(shù)總是面向最尖端最先進(jìn)的方向發(fā)展,因此,有效分析軍事新聞,成了追蹤技術(shù)前沿的一種手段。目前事件抽取的常用手段有:
1、傳統(tǒng)的匹配和統(tǒng)計(jì)方法,如靜態(tài)模板匹配和詞頻統(tǒng)計(jì)分析,由于自然語言變化方式很多,輕微變動就可以造成語義的劇烈變化,從而導(dǎo)致該方法失效,抽取效率低。對于軍事新聞的抽取,模板的設(shè)計(jì)、編寫者需要有深入的軍事知識儲備,其門檻較高。
2、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的方法,如使用長短時(shí)記憶網(wǎng)絡(luò)、詞包等進(jìn)行詞的向量編碼,使用預(yù)訓(xùn)練語言模型進(jìn)行遷移學(xué)習(xí)。但是由于并行處理器緩存的限制,該方法仍然難以應(yīng)對超長篇章級別的軍事新聞綜合處理的需要。
發(fā)明內(nèi)容
針對目前軍事新聞事件抽取設(shè)計(jì)模式困難、難以應(yīng)對篇章級長文本等問題,本發(fā)明提供一種軍事新聞長文本層次化事件抽取方法,可以高效地對篇章級別的長文本軍事新聞進(jìn)行事件提取。
本發(fā)明公開了一種軍事新聞長文本層次化事件抽取方法,其具體步驟包括,
S1,獲取軍事新聞資訊網(wǎng)頁的內(nèi)容,提取該類網(wǎng)頁中的軍事新聞文本數(shù)據(jù);
所述的步驟S1,其具體包括,使用網(wǎng)絡(luò)爬蟲工具從各個(gè)軍事資訊網(wǎng)站上獲取軍事新聞的網(wǎng)站鏈接,并構(gòu)造訪問軍事新聞的網(wǎng)站主體的HTTP請求,訪問軍事新聞的網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁數(shù)據(jù)之后,解析網(wǎng)頁數(shù)據(jù),提取該類網(wǎng)頁中的軍事新聞文本數(shù)據(jù),并在解析的網(wǎng)頁數(shù)據(jù)中尋找新的軍事新聞超鏈接,對新的軍事新聞超鏈接再進(jìn)行上述網(wǎng)頁數(shù)據(jù)的獲取與解析的過程。
S2,對所提取的軍事新聞文本數(shù)據(jù)進(jìn)行文本預(yù)處理,其具體包括,
S21,分別提取軍事新聞文本的標(biāo)題和發(fā)布日期;
S22,對軍事新聞文本的內(nèi)容進(jìn)行分詞和詞性標(biāo)注;
S23,對軍事新聞文本的標(biāo)題進(jìn)行分詞并構(gòu)建觸發(fā)詞,定義事件類別,對軍事新聞的事件和軍事新聞文本標(biāo)題分別進(jìn)行歸類,得到軍事新聞的事件和軍事新聞文本標(biāo)題的歸類結(jié)果;
使用自然語言處理工具對軍事新聞文本的標(biāo)題進(jìn)行分詞,從分詞結(jié)果中抽取軍事新聞主體的關(guān)鍵詞,根據(jù)關(guān)鍵詞對應(yīng)的軍事新聞事件類別,構(gòu)建相應(yīng)事件類別的觸發(fā)詞。首先判斷軍事新聞文本的標(biāo)題或正文內(nèi)容中是否存在軍事新聞主體的關(guān)鍵詞,如果存在軍事新聞主體的關(guān)鍵詞,將該軍事新聞的事件歸類到該關(guān)鍵詞對應(yīng)的事件類別當(dāng)中,得到軍事新聞的事件所屬的類別信息,如果軍事新聞文本的標(biāo)題或正文內(nèi)容中不存在軍事新聞主體的關(guān)鍵詞,或者對軍事新聞文本的標(biāo)題進(jìn)行分詞的結(jié)果無法完全覆蓋到軍事新聞主體的關(guān)鍵詞時(shí),對于軍事新聞文本的標(biāo)題進(jìn)行分詞得到的詞匯,利用該詞匯之間的相似度,計(jì)算軍事新聞文本標(biāo)題的詞匯與事件類別的觸發(fā)詞的相似度,如果其相似度大于一定閾值,則將軍事新聞文本標(biāo)題歸屬到觸發(fā)詞對應(yīng)的事件類別中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍32801部隊(duì),未經(jīng)中國人民解放軍32801部隊(duì)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110970577.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種事件通訊裝置及方法
- 動態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測裝置和攻擊檢測方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲介質(zhì)





