[發(fā)明專利]一種軍事新聞長文本層次化事件抽取方法在審
| 申請?zhí)枺?/td> | 202110970577.5 | 申請日: | 2021-08-23 |
| 公開(公告)號: | CN113657090A | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 張靜;胡軍;欒瑞鵬;孫悅 | 申請(專利權(quán))人: | 中國人民解放軍32801部隊 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F40/258;G06K9/62;G06F16/35;G06F16/951 |
| 代理公司: | 北京豐浩知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11781 | 代理人: | 李學(xué)康 |
| 地址: | 100082 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 軍事新聞 文本 層次 事件 抽取 方法 | ||
1.一種軍事新聞長文本層次化事件抽取方法,其特征在于,其具體步驟包括,
S1,獲取軍事新聞資訊網(wǎng)頁的內(nèi)容,提取該類網(wǎng)頁中的軍事新聞文本數(shù)據(jù);
S2,對所提取的軍事新聞文本數(shù)據(jù)進行文本預(yù)處理,其具體包括,
S21,分別提取軍事新聞文本的標(biāo)題和發(fā)布日期;
S22,對軍事新聞文本的內(nèi)容進行分詞和詞性標(biāo)注;
S23,對軍事新聞文本的標(biāo)題進行分詞并構(gòu)建觸發(fā)詞,定義事件類別,對軍事新聞的事件和軍事新聞文本標(biāo)題分別進行歸類,得到軍事新聞的事件和軍事新聞文本標(biāo)題的歸類結(jié)果;
S24,對步驟S23得到的軍事新聞的事件和軍事新聞文本標(biāo)題的歸類結(jié)果,按照軍事新聞發(fā)布的日期先后順序進行排序;
S3,對軍事新聞文本進行分句和分詞,計算軍事新聞文本與觸發(fā)詞的相似度,識別出軍事新聞文本中的事件句;
S4,對于軍事新聞文本,篩選出軍事新聞文本中與觸發(fā)詞的相似度大于一定閾值的事件句,并將該事件句保留在軍事新聞文本中;
S5,從事件句中提取事件要素,進行角色標(biāo)注;
S6,根據(jù)事件元素的角色描述結(jié)果,進行事件描述;
在不同的角色類別標(biāo)簽下,對事件句中提取出來的事件元素,使用語法分析樹進行整合,得到由事件句的事件元素所組成的、能夠表達一個完整語義的事件描述,分析該事件描述的動賓關(guān)系和主謂關(guān)系,并使用事件模板對事件描述填充,得到軍事新聞長文本的層次化事件抽取結(jié)果。
2.如權(quán)利要求1所述的軍事新聞長文本層次化事件抽取方法,其特征在于,
所述的步驟S1,其具體包括,使用網(wǎng)絡(luò)爬蟲工具從各個軍事資訊網(wǎng)站上獲取軍事新聞的網(wǎng)站鏈接,并構(gòu)造訪問軍事新聞的網(wǎng)站主體的HTTP請求,訪問軍事新聞的網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁數(shù)據(jù)之后,解析網(wǎng)頁數(shù)據(jù),提取該類網(wǎng)頁中的軍事新聞文本數(shù)據(jù),并在解析的網(wǎng)頁數(shù)據(jù)中尋找新的軍事新聞超鏈接,對新的軍事新聞超鏈接再進行上述網(wǎng)頁數(shù)據(jù)的獲取與解析的過程。
3.如權(quán)利要求1所述的軍事新聞長文本層次化事件抽取方法,其特征在于,
所述的步驟S23,使用自然語言處理工具對軍事新聞文本的標(biāo)題進行分詞,從分詞結(jié)果中抽取軍事新聞主體的關(guān)鍵詞,根據(jù)關(guān)鍵詞對應(yīng)的軍事新聞事件類別,構(gòu)建相應(yīng)事件類別的觸發(fā)詞;首先判斷軍事新聞文本的標(biāo)題或正文內(nèi)容中是否存在軍事新聞主體的關(guān)鍵詞,如果存在軍事新聞主體的關(guān)鍵詞,將該軍事新聞的事件歸類到該關(guān)鍵詞對應(yīng)的事件類別當(dāng)中,得到軍事新聞的事件所屬的類別信息,如果軍事新聞文本的標(biāo)題或正文內(nèi)容中不存在軍事新聞主體的關(guān)鍵詞,或者對軍事新聞文本的標(biāo)題進行分詞的結(jié)果無法完全覆蓋到軍事新聞主體的關(guān)鍵詞時,對于軍事新聞文本的標(biāo)題進行分詞得到的詞匯,利用該詞匯之間的相似度,計算軍事新聞文本標(biāo)題的詞匯與事件類別的觸發(fā)詞的相似度,如果其相似度大于一定閾值,則將軍事新聞文本標(biāo)題歸屬到觸發(fā)詞對應(yīng)的事件類別中;
所述的計算軍事新聞文本標(biāo)題的詞匯與事件類別的觸發(fā)詞的相似度,使用義原描述式對詞匯進行描述,得到了每個詞匯的義原描述式,w1和w2分別表示兩個不同詞匯的義原描述式,在義原層次體系下計算該兩個詞匯之間的路徑長度d,選用合適的調(diào)節(jié)參數(shù)α,使用知網(wǎng)詞語相似度公式計算詞匯w1和w2之間的相似度,該知網(wǎng)詞語相似度公式為:
其中,Sim(w1,w2)表示詞匯w1和w2之間的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍32801部隊,未經(jīng)中國人民解放軍32801部隊許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110970577.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





