[發明專利]一種面向人物表征的新聞文本發生地抽取方法有效
| 申請號: | 202011336057.0 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112307364B | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 張宏莉;關皓天;王星;方濱興;楊語晨;方依;孟超 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/29;G06F40/295;G06F40/30;G06N3/04;G06N3/00 |
| 代理公司: | 黑龍江立超同創知識產權代理有限責任公司 23217 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 人物 表征 新聞 文本 生地 抽取 方法 | ||
一種面向人物表征的新聞文本發生地抽取方法,屬于信息提取領域,用以解決在人物表征過程中現有的命名實體識別算法缺少語義結構信息分析,導致新聞文本中出現多個地名時難以分辨新聞發生地的問題。本發明的技術要點包括,對新聞文本數據集中新聞文本進行預處理;對預處理后的新聞文本中的實體及實體類別、段落特征、句子特征、詞特征進行標注;對標注后的新聞文本中的地名關系進行抽取,構建新的地名實體知識圖譜;并采用基于深度森林算法gcForest對新聞文本數據集中的新聞發生地進行預測抽取。本發明可用于新聞事件相關人物的特性表征。
技術領域
本發明涉及信息提取領域,具體涉及一種面向人物表征的新聞文本發生地抽取方法。
背景技術
目前,眾多的研究人員就事件發生地抽取工作進行了廣泛的研究。其中,有一些研究政治科學(political science)的研究人員提出了一些相關的研究成果。例如在一些相關工作中,作者分別以俄羅斯高加索地區(Russia’s North Caucasus)犯罪數據以及茅茅起義數據(Mau Mau rebellion)為數據集,分析事件發生地與政治事件之間的關系,兩篇文章均使用了地名字典庫作為事件發生地分析的依據,這種方式的優點是提高了地點識別的精準度(precision),但缺點是如果出現了其中不存在的地名便無法識別,模型也難以在其他系統中復用。
事件的分析需要對文本信息進行處理,識別文本中的位置名稱是命名實體識別(NER)的一部分。目前,眾多的研究人員就NER技術以及事件提取技術等方面進行了廣泛的研究工作,并取得了很多重要的研究成果。Agarwal等提出的模型結合了Stanford NER工具和基于概念的詞匯表,從推文中提取位置信息。為了從提取的位置短語中濾除噪聲項,他們使用了具有以下三個特征的樸素貝葉斯分類器,分別是單詞本身的POS標簽,該單詞前后各三個單詞。為了消除地名的歧義,作者從世界地名錄數據的倒排索引搜索和谷歌地圖API的搜索組合中提取了經度和緯度信息用于地理位置的優化。Kazama等提出使用動詞和多字名詞之間依賴關系的大規模聚類來構建用于檢測日文文本中的命名實體的地名詞典。他們認為,由于依賴關系捕獲了多個單詞的語義,因此他們的集群字典是NER的一個很好的地名詞典。此外,他們還將群集地名錄與從維基百科中提取的地名詞典相結合,以提高準確性。Ozer Ozdikis等提出了運用詞匯之間的范式關系抽取Twitter文本中地點發生地的方式,由于其規定的范式有限,所以算法并不具有普適性;綜上所述,現有技術在解決特定人物的表征問題時缺少對語義結構信息的分析,且當新聞文本中出現多個地名時難以分辨新聞發生的地點。
發明內容
鑒于以上問題,本發明提出一種面向人物表征的新聞文本發生地抽取方法,用以解決在人物表征過程中現有的命名實體識別算法缺少語義結構信息分析,導致新聞文本中出現多個地名時難以分辨新聞發生地的問題。
一種面向人物表征的新聞文本發生地抽取方法,包括以下步驟,
步驟一、建立新聞文本數據集;
步驟二、對新聞文本數據集中新聞文本進行預處理;
步驟三、利用命名實體識別算法對預處理后的新聞文本的句子中的實體及實體類別進行標注;
步驟四、對預處理后的新聞文本中的段落特征進行標注,包括段落文本類別特征提取、段落詞性特征標注和段落語義依存關系標注;
步驟五、對預處理后的新聞文本中的句子特征進行標注,包括新聞文本與句子的類別特征提取,句子與標題的相對距離特征提取,句子標題相似度特征提取以及相鄰句子相似度提取;
步驟六、對預處理后的新聞文本中的詞特征進行標注,包括地名地理特征提取和地名頻次特征提取;
步驟七、對經過步驟三、步驟四、步驟五、步驟六標注后的新聞文本中的發生地關系進行抽取,構建新的地名實體知識圖譜;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011336057.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種名片夾自動組裝線
- 下一篇:一種具有揭除印刷出腔貼紙的漏揭貼紙印刷機





