[發明專利]一種面向中文新聞文本的事件地點抽取方法有效

申請號：	201510097822.0	申請日：	2015-03-05
公開（公告）號：	CN104731768B	公開（公告）日：	2017-10-20
發明（設計）人：	何緋娟;孫霞;繆相林	申請（專利權）人：	西安交通大學城市學院
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	西安智大知識產權代理事務所61215	代理人：	弋才富
地址：	710018 ***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向中文新聞文本事件地點抽取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及計算機科學與技術中的文本挖掘、自然語言處理、輿情分析領域，特別涉及一種面向中文新聞文本的事件地點抽取方法。

背景技術

新聞文本中，存在機構名、處所名詞、地名等詞匯或短語，但是它們并不一定是事件發生的地點。例如，在新聞文本中“2012年6月19日，在墨西哥洛斯卡沃斯召開的G20峰會期間，阿根廷總統克里斯蒂娜向英國首相卡梅倫遞交有關馬爾維納斯群島主權的函件”中，存在地名“墨西哥”、“洛斯卡沃斯”、“馬爾維納斯群島”三個地名，但是“馬爾維納斯群島”并不是事件發生的地點。如何從機構名、處所名詞、地名中識別出事件地點是事件抽取中的一個難題。

關于面向中文新聞文本的事件地點抽取的專利。專利名稱《一種地名識別方法和裝置》公開號CN103186524A；該發明公開了一種地名識別方法和裝置，用以進行地名識別。該發明方法包括：對待識別的字符串進行分詞得到候選詞；獲取各候選詞在地址名稱庫中的所屬類別；對各候選詞進行遍歷，若當前候選詞的所屬類別為第一類別，則將當前候選詞作為地名添加到候選地名集合；若當前候選詞的所屬類別為第二類別，則對當前候選詞以及在所述地址名稱庫中與當前候選詞臨近的候選詞進行組合得到合成詞，并將所述合成詞作為地名添加到候選地名集合。但是該專利只能識別文本中的地名，還不能識別出事件地點。

發明內容

為了克服上述現有技術的缺陷，本發明的目的在于提供一種面向中文新聞文本的事件地點抽取方法，該方法從新聞文本中抽取上下文特征、位置特征、拓撲特征三個特征構成特征向量，利用Random Forest分類器從分詞獲取機構名、處所名詞、地名中識別出事件地點；能夠在地名識別的基礎上，進一步識別出新聞事件發生的地點。

為達到以上目的，本發明的技術方案為：

一種面向中文新聞文本的事件地點抽取方法，包括如下步驟：

步驟一：候選事件地點抽取

(1)首先，利用ICTCLAS中文分詞工具對中文新聞文本T進行分詞，生成一個由二元組構成的序列S_T＝(w₁，p₁)，(w₂，p₂),...，(w_i，p_i)，...，(w_n，p_n)，其中，n表示切分出的詞匯的個數，n＞0，w_i表示ICTCLAS切分出的詞匯，p_i表示w_i的詞性；

(2)從S_T中依次選擇所有滿足p_i＝″ni″p_i＝″nl″、p_i＝″ns″三種情況之一的二元組，p_i＝″ni″p_i＝″nl″、p_i＝″ns″分別表示對應的w_i為機構名、處所名詞、地名；所有被選中的二元組中的w_i構成一個集合W_T＝{w′₁，w′₂，...，w′_j，...，w′_m}，W_T將作為候選事件地點的集合，m表示W_T中詞匯的個數，m＞0；