[發明專利]一種面向中文新聞文本的事件地點抽取方法有效
| 申請號: | 201510097822.0 | 申請日: | 2015-03-05 |
| 公開(公告)號: | CN104731768B | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 何緋娟;孫霞;繆相林 | 申請(專利權)人: | 西安交通大學城市學院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 西安智大知識產權代理事務所61215 | 代理人: | 弋才富 |
| 地址: | 710018 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 中文 新聞 文本 事件 地點 抽取 方法 | ||
技術領域
本發明涉及計算機科學與技術中的文本挖掘、自然語言處理、輿情分析領域,特別涉及一種面向中文新聞文本的事件地點抽取方法。
背景技術
新聞文本中,存在機構名、處所名詞、地名等詞匯或短語,但是它們并不一定是事件發生的地點。例如,在新聞文本中“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統克里斯蒂娜向英國首相卡梅倫遞交有關馬爾維納斯群島主權的函件”中,存在地名“墨西哥”、“洛斯卡沃斯”、“馬爾維納斯群島”三個地名,但是“馬爾維納斯群島”并不是事件發生的地點。如何從機構名、處所名詞、地名中識別出事件地點是事件抽取中的一個難題。
關于面向中文新聞文本的事件地點抽取的專利。專利名稱《一種地名識別方法和裝置》公開號CN103186524A;該發明公開了一種地名識別方法和裝置,用以進行地名識別。該發明方法包括:對待識別的字符串進行分詞得到候選詞;獲取各候選詞在地址名稱庫中的所屬類別;對各候選詞進行遍歷,若當前候選詞的所屬類別為第一類別,則將當前候選詞作為地名添加到候選地名集合;若當前候選詞的所屬類別為第二類別,則對當前候選詞以及在所述地址名稱庫中與當前候選詞臨近的候選詞進行組合得到合成詞,并將所述合成詞作為地名添加到候選地名集合。但是該專利只能識別文本中的地名,還不能識別出事件地點。
發明內容
為了克服上述現有技術的缺陷,本發明的目的在于提供一種面向中文新聞文本的事件地點抽取方法,該方法從新聞文本中抽取上下文特征、位置特征、拓撲特征三個特征構成特征向量,利用Random Forest分類器從分詞獲取機構名、處所名詞、地名中識別出事件地點;能夠在地名識別的基礎上,進一步識別出新聞事件發生的地點。
為達到以上目的,本發明的技術方案為:
一種面向中文新聞文本的事件地點抽取方法,包括如下步驟:
步驟一:候選事件地點抽取
(1)首先,利用ICTCLAS中文分詞工具對中文新聞文本T進行分詞,生成一個由二元組構成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的詞匯的個數,n>0,wi表示ICTCLAS切分出的詞匯,pi表示wi的詞性;
(2)從ST中依次選擇所有滿足pi=″ni″pi=″nl″、pi=″ns″三種情況之一的二元組,pi=″ni″pi=″nl″、pi=″ns″分別表示對應的wi為機構名、處所名詞、地名;所有被選中的二元組中的wi構成一個集合WT={w′1,w′2,...,w′j,...,w′m},WT將作為候選事件地點的集合,m表示WT中詞匯的個數,m>0;
步驟二:特征向量構建
對于集合WT中的每個w′j,選擇三個特征,包括:w′j在新聞文本T中的上下文Context特征;w′j在新聞文本T中的位置特征;w′j在新聞文本T中的拓撲特征;三個特征的計算如下:
特征一:w′j在新聞文本T中的上下文特征cj
w′j在新聞文本T中的上下文特征用w′j所匹配的正則表達式的權重表示,記為cj;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學城市學院,未經西安交通大學城市學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510097822.0/2.html,轉載請聲明來源鉆瓜專利網。





