[發明專利]一種基于詞性分析的文本時間信息抽取與規范方法在審
| 申請號: | 202110734500.8 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113535898A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 姜明;吳鍇;張旻 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/284 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞性 分析 文本 時間 信息 抽取 規范 方法 | ||
1.一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于在規則上加入詞性分析,來提供更高的準確率和召回率,具體包括以下步驟:
S1、構建多個時間詞性模版;
S2、文本通過分詞工具提取出分詞結果和對應詞性列表,利用時間信息匹配模版提取出時間信息短語;
S3、根據不同時間詞性模版,提取多個時間信息短語,并對提取出來的時間信息短語進行分類;
S4、根據映射規則,輸出最后規范化后的結果。
2.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于時間詞性模版具體的表達形式是(*pos_tagging,unit),unit是時間單位,*pos_tagging是修飾時間單位的詞性列表,該參數長度不固定,依據雙親委派原則,優先使用長度較長的模版進行匹配。
3.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于步驟S1具體為:
S101、從標注好的訓練語料中通過nlpir工具,自動生成各種時間信息分詞后的結果和對應詞性,并將該結果轉化成時間詞性匹配模版;
S102、提取并總結時間正則模版,用于時間信息提取后的分類問題;
S103、提取并總結時間信息前、中、后,三個位置的介詞,形成三種介詞模版,用于詞性匹配后的修正問題和時間信息提取后的分類問題。
4.根據權利要求2所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于根據雙親委派原則,對文本分詞后對應的詞和詞性進行時間詞性模版匹配,優先傳遞給等級高的模版,然后回溯返回結果,每個時間詞性模版匹配前都會先判斷是否已經匹配成功,只有未匹配成功才會進行匹配,否則直接回溯。
5.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于步驟S2根據介詞模版對匹配結果進行修正,介詞包括:前置介詞、中置介詞和后置介詞。其中有些詞既可作前置介詞,又可作后置介詞。
6.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于步驟S3時間信息短語分類,主要分為五類:日歷時間、時鐘時間、相對時間、段時間、其他時間。其中,日歷時間和時鐘時間是具體的時間點,它們的時間表示粒度不同,通常作為參考時間;日歷時間最小粒度為天,最大粒度為年;時鐘時間最小粒度為秒,最大粒度為小時;相對時間,是需要上下文時間才能確定下的時間;段時間,是指一段時間,從一個時間點到另一個時間點,通常會有明顯的中置介詞。其他時間,包括模糊時間和一些無法規范的時間。
7.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于步驟S3時間信息短語分類,通過總結的時間正則模版,對時間信息提取的結果進行分類,具體為:
A、根據日歷時間的時間正則模版去匹配,將匹配上的時間信息短語標注上日歷時間類別;
B、根據時鐘時間的時間正則模版去匹配,將匹配上的時間信息短語標注上時鐘時間類別;
C、根據前置介詞和后置介詞修正的時間信息,直接對時間信息短語標注上相對時間類別并覆蓋之前標注的類別;
D、根據中置介詞修正的時間信息,直接對時間信息短語標注上段時間類別并覆蓋之前標注的類別。
8.根據權利要求1所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于步驟S4時間信息映射和規范化,包括時間信息粒度的一一對應,以及對段時間的推理規范化。
9.根據權利要求8所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于所述段時間推理規范化可用函數關系式表示:
Result=Offset*Number*Unit+ContextTime
其中,Result表示規范化后的結果,Offset表示偏移量,Number表示偏移長度,Unit表示時間粒度,ContextTime表示上下文參考時間。
10.根據權利要求8所述的一種基于詞性分析的文本時間信息抽取與規范方法,其特征在于時間推理規范化過程中,缺少時間粒度的采用以下方法進行補全:
A、只有時鐘時間沒有日歷時間的情況下,缺少日歷時間部分根據上下文參考時間進行補全;
B、只有日歷時間沒有時鐘時間的情況下,直接對時鐘時間部分的各個時間粒度置零。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110734500.8/1.html,轉載請聲明來源鉆瓜專利網。





