[發明專利]基于信息單元融合的新聞原子事件抽取方法有效
| 申請號: | 201410108447.0 | 申請日: | 2014-03-21 |
| 公開(公告)號: | CN103838870A | 公開(公告)日: | 2014-06-04 |
| 發明(設計)人: | 劉茂福;張賀 | 申請(專利權)人: | 武漢科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430081 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 單元 融合 新聞 原子 事件 抽取 方法 | ||
技術領域
本發明屬于新聞原子事件抽取技術領域。具體涉及到一種基于信息單元融合的新聞原子事件抽取方法。
背景技術
隨著計算機在各領域的廣泛應用以及互聯網的日益普及,海量文本信息的處理技術在各領域的作用日趨重要。如何從海量文本信息中提取出用戶感興趣的內容成為信息抽取領域研究熱點。事件抽取隸屬于信息抽取領域,主要研究如何把含有事件信息的非結構化文本以結構化的形式呈現出來。它涉及自然語言處理、數據挖掘、機器學習等多個學科的技術和方法,目前主要應用于自動問答、自動摘要、信息檢索等領域。
事件抽取包括原子事件抽取和主題事件抽取。原子事件表示一個動作的發生或狀態變化,一般由謂詞驅動,包括參與該動作或狀態的時間、地點、人物、工具和方法等其他論元。主題事件表示某一類核心事件或活動以及所有與之相關的其他事件或活動,可由多個原子事件組成。原子事件抽取的主要研究方法有模式匹配和機器學習兩類。模式匹配方法在某一領域能夠取得較好的抽取結果,但是可移植性較差。機器學習方法與領域無關,具有較好的可移植性,但是需要大規模的標準語料,現階段的語料規模尚不能滿足應用需求,且人工標注語料耗時耗力。
當前絕大多數研究方法都是基于短語信息或句子層級信息的方法,這依賴于對語料的深層句法分析。現有深層句法分析技術不僅執行效率過慢,而且對語料文本長度限制嚴格。此外,由于目前的研究大多是基于MUC評測會議展開或ACE評測會議展開,只針對某個特定領域或特定類型的事件進行研究,系統的應用領域具有一定的局限性。
發明內容
本發明旨在克服現有技術不足,目的是提供一種執行效率高和適用性強的基于信息單元融合的新聞原子事件抽取方法。
為實現上述目的,本發明所采用的技術方案包括以下步驟:
步驟一、對新聞語料的新聞正文進行除雜處理:
①、去掉小括號和方括號中的內容;
②、將英文雙引號替換為中文雙引號;
③、去掉“@”符號;
④、根據新聞正文結尾的記者信息模式和媒體信息模式過濾掉新聞正文結尾與事件抽取無關的信息。
得到除雜處理后的新聞正文。
本發明所述新聞語料是指新聞標題和新聞正文。
步驟二、利用Stanford?Word?Segmenter軟件對新聞標題和除雜處理后的新聞正文進行中文分詞,得到新聞標題的中文分詞結果和新聞正文的中文分詞結果。
步驟三、利用Stanford?Named?Entity?Recognizer軟件對新聞正文的中文分詞結果和新聞標題的中文分詞結果進行命名實體識別,得到新聞正文的命名實體識別結果和新聞標題的命名實體識別結果。
步驟四、利用Stanford?POS?Tagger軟件對新聞正文的中文分詞結果和新聞標題的中文分詞結果進行詞性標注,得到新聞正文的詞性標注結果和新聞標題的詞性標注結果。
步驟五、根據待過濾動詞詞表對新聞正文的詞性標注結果和新聞標題的詞性標注結果進行動詞過濾,得到動詞過濾后的新聞正文的詞性標注結果和動詞過濾后的新聞標題的詞性標注結果。
步驟六、根據初步融合規則庫對所述動詞過濾后的新聞正文的詞性標注結果和所述新聞正文的命名實體識別結果進行初步融合,得到新聞正文的初步融合結果;根據初步融合規則庫對所述動詞過濾后的新聞標題的詞性標注結果和所述新聞標題的命名實體識別結果進行初步融合,得到新聞標題的初步融合結果。
步驟七、根據信息單元融合規則庫對新聞正文的初步融合結果和新聞標題的初步融合結果進行信息單元融合,得到新聞正文的信息單元融合結果和新聞標題的信息單元融合結果。
步驟八、根據核心詞表和事件抽取規則庫對新聞正文的信息單元融合結果進行原子事件抽取,得到新聞正文的原子事件抽取結果。
所述新聞正文結尾的記者信息模式和媒體信息模式是通過對所收集的新聞正文結尾的記者信息和媒體信息進行模式聚類得出的信息模式。
所述待過濾動詞詞表是由對選取事件謂詞影響較大和在新聞正文中出現頻率較高的趨向動詞、意向動詞、言說動詞和致使動詞構成的動詞詞表。
所述初步融合規則庫是由命名實體標簽的選擇規則、書名號所標志成分的識別規則、時間信息單元的識別規則、連續相同標簽的合并規則和“PU”標簽的省略規則所構成的規則庫。
所述信息單元融合規則庫是由介詞單元融合規則、名詞單元融合規則、狀語單元融合規則、命名實體單元融合規則和修飾語單元融合規則所構成的規則庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢科技大學,未經武漢科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410108447.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可更換橫向配置預應力筋自復位耗能橋墩
- 下一篇:一種推車
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





