[發(fā)明專利]基于信息單元融合的新聞原子事件抽取方法有效
| 申請?zhí)枺?/td> | 201410108447.0 | 申請日: | 2014-03-21 |
| 公開(公告)號(hào): | CN103838870A | 公開(公告)日: | 2014-06-04 |
| 發(fā)明(設(shè)計(jì))人: | 劉茂福;張賀 | 申請(專利權(quán))人: | 武漢科技大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430081 *** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 信息 單元 融合 新聞 原子 事件 抽取 方法 | ||
1.一種基于信息單元融合的新聞原子事件抽取方法,其特征在于所述方法
的具體步驟是:
步驟一、對新聞?wù)Z料的新聞?wù)倪M(jìn)行除雜處理:
①、去掉小括號(hào)和方括號(hào)中的內(nèi)容,
②、將英文雙引號(hào)替換為中文雙引號(hào),
③、去掉“@”符號(hào),
④、根據(jù)新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式過濾掉新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息,
得到除雜處理后的新聞?wù)模?/p>
步驟二、利用Stanford?Word?Segmenter軟件對新聞標(biāo)題和除雜處理后的新聞?wù)倪M(jìn)行中文分詞,得到新聞標(biāo)題的中文分詞結(jié)果和新聞?wù)牡闹形姆衷~結(jié)果;
步驟三、利用Stanford?Named?Entity?Recognizer軟件對新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行命名實(shí)體識(shí)別,得到新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果和新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果;
步驟四、利用Stanford?POS?Tagger軟件對新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行詞性標(biāo)注,得到新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果;
步驟五、根據(jù)待過濾動(dòng)詞詞表對新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果進(jìn)行動(dòng)詞過濾,得到動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果;
步驟六、根據(jù)初步融合規(guī)則庫對所述動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和所述新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞?wù)牡某醪饺诤辖Y(jié)果;根據(jù)初步融合規(guī)則庫對所述動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果和所述新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞標(biāo)題的初步融合結(jié)果;
步驟七、根據(jù)信息單元融合規(guī)則庫對新聞?wù)牡某醪饺诤辖Y(jié)果和新聞標(biāo)題
的初步融合結(jié)果進(jìn)行信息單元融合,得到新聞?wù)牡男畔卧诤辖Y(jié)果和新聞標(biāo)題的信息單元融合結(jié)果;
步驟八、根據(jù)核心詞表和事件抽取規(guī)則庫對新聞?wù)牡男畔卧诤辖Y(jié)果進(jìn)行原子事件抽取,得到新聞?wù)牡脑邮录槿〗Y(jié)果。
2.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式是通過對所收集的新聞?wù)慕Y(jié)尾的記者信息和媒體信息進(jìn)行模式聚類得出的信息模式。
3.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述待過濾動(dòng)詞詞表是由對選取事件謂詞影響較大和在新聞?wù)闹谐霈F(xiàn)頻率較高的趨向動(dòng)詞、意向動(dòng)詞、言說動(dòng)詞和致使動(dòng)詞構(gòu)成的動(dòng)詞詞表。
4.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述初步融合規(guī)則庫是由命名實(shí)體標(biāo)簽的選擇規(guī)則、書名號(hào)所標(biāo)志成分的識(shí)別規(guī)則、時(shí)間信息單元的識(shí)別規(guī)則、連續(xù)相同標(biāo)簽的合并規(guī)則和“PU”標(biāo)簽的省略規(guī)則所構(gòu)成的規(guī)則庫。
5.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述信息單元融合規(guī)則庫是由介詞單元融合規(guī)則、名詞單元融合規(guī)則、狀語單元融合規(guī)則、命名實(shí)體單元融合規(guī)則和修飾語單元融合規(guī)則所構(gòu)成的規(guī)則庫。
6.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述核心詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表和通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表的集合;其中:通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果中的動(dòng)詞和名詞所得詞表;通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表是通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果中的命名實(shí)體、被標(biāo)記為“DEG”標(biāo)簽的“的”字后邊的名詞、詞頻大于1次的動(dòng)詞和詞頻大于1次的名詞所得詞表。
7.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述事件抽取規(guī)則庫是由權(quán)值分配規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的句子切分規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的原子句切分規(guī)則、?“把”
字句抽取規(guī)則、“被”字句抽取規(guī)則、一般句抽取規(guī)則和時(shí)間空間抽取規(guī)則構(gòu)成的規(guī)則庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢科技大學(xué),未經(jīng)武漢科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410108447.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





