[發明專利]一種基于詞性分析的文本時間信息抽取與規范方法在審
| 申請號: | 202110734500.8 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113535898A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 姜明;吳鍇;張旻 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/284 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞性 分析 文本 時間 信息 抽取 規范 方法 | ||
本發明涉及一種基于詞性分析的文本時間信息抽取與規范方法,該方法包括:構建時間信息匹配模板;通過nlpir工具將待識別文本作分詞處理,并提取詞性,利用匹配模板提取出時間信息短語;根據不同模板提取出來的時間信息短語判定分類;根據映射規則,輸出規范化后的結果。與現有的常規規則匹配相比,本發明提高了召回率和準確率,并補充了上下文詞性相關信息、解決了多以詞的區分,解決了時間信息映射過程中主要的難點:時間類型的區分、相對時間的轉換以及時間缺少部分的不全。
技術領域
本發明涉及自然語言處理領域的信息抽取方法,尤其涉及一種基于詞性分析的文本時間信息抽取與規范方法。
背景技術
時間是描述事件的三種基本要素的其中之一,可以用來定位事件發生的時間,根據上下文時間點和事件順序來推斷當前事件發生時間以及對事件的跟蹤等。
時間是客觀存在的,是自然語言處理領域實體抽取中的一項基礎性任務,是自然語言表述中必不可少的一個語義成分。基于英文文本抽取的技術相對較為成熟,已經有TIMEX一系列的標注規范,然而人們雖然對時間概念已經形成了一定的一致性,但是只存在于一些規范化要求比較高的文本或者在文章特殊的位置,對時間概念的描述形式會因為中文表達的靈活性和多樣性,語法和語義跟英文差別較大,使得不能照搬英文的處理方式,抽取難度較大。
目前,時間信息抽取相關研究還是比較多的,主要分為基于規則匹配的方法和基于機器學習的方法兩種。其中,基于規則匹配的方法較為簡單,需要歸納總結各種時間信息表達的規律,通過遵循這些規律來編寫信息抽取規則,來實現這些規則下的時間信息抽取。這種方法方便理解和擴展,而且抽取效率和準確率都較高,但受限于制定的規則體系,人工需要總結的規則較多,工作量較大。基于機器學習的方法需要一定規模標注好的語料訓練機器學習模型,該方法受限于訓練語料的標注質量和規模,而且準確率往往沒有基于規則匹配的高,較少使用在時間信息抽取的任務當中。
發明內容
本發明提供一種基于詞性分析的文本時間信息抽取與規范方法,相對于現有技術方法,旨在提高抽取正確率和召回率。
本發明可以通過以下技術方案實現:
一種基于詞性分析的文本時間信息抽取與規范方法,在規則上加入詞性分析,來提供更高的準確率和召回率,所述的方法包括以下步驟:
S1、構建多個時間詞性模版;
S2、文本通過分詞工具提取出分詞結果和對應詞性列表,利用時間信息匹配模版提取出時間信息短語;
S3、根據不同時間詞性模版,提取多個時間信息短語,并對提取出來的時間信息短語進行分類;
S4、根據映射規則,輸出最后規范化后的結果。
進一步的,時間詞性模版具體的表達形式是(*pos_tagging,unit),unit是時間單位,*pos_tagging是修飾時間單位的詞性列表,該參數長度不固定,依據雙親委派原則,優先使用長度較長的模版進行匹配。
進一步的,步驟S1具體為:
S101、從標注好的訓練語料中通過nlpir工具,自動生成各種時間信息分詞后的結果和對應詞性,并將該結果轉化成時間詞性匹配模版;
S102、提取并總結時間正則模版,用于時間信息提取后的分類問題;
S103、提取并總結時間信息前、中、后,三個位置的介詞,形成三種介詞模版,用于詞性匹配后的修正問題和時間信息提取后的分類問題。
進一步的,根據雙親委派原則,對文本分詞后對應的詞和詞性進行時間詞性模版匹配,優先傳遞給等級高的模版,然后回溯返回結果,每個時間詞性模版匹配前都會先判斷是否已經匹配成功,只有未匹配成功才會進行匹配,否則直接回溯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110734500.8/2.html,轉載請聲明來源鉆瓜專利網。





