[發(fā)明專利]一種警情文本的標準案發(fā)時間提取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011195667.3 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112541075A | 公開(公告)日: | 2021-03-23 |
| 發(fā)明(設計)人: | 葉愷翔;呂曉寶;王堅;胡祥月;宋劍鋒;王元兵;王海榮 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/295;G06Q50/26 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 211102 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標準 案發(fā) 時間 提取 方法 系統(tǒng) | ||
本發(fā)明公開了一種警情文本的標準案發(fā)時間提取方法及系統(tǒng),屬于公安警情文本提取技術領域。包括以下步驟:將警情文本中的時間要素以命名實體識別的方式按順序依次進行提取;將警情文本切分成多個文本分句,并構建文本分句與時間要素的鍵值對;建立并訓練案發(fā)時間識別模型,通過案發(fā)時間識別模型對文本分句中的表述內容進行識別以確定案發(fā)時間;將確定的案發(fā)時間進行標準化處理;對標準化處理后的案發(fā)時間進行合并處理,并進一步對合并后的案發(fā)時間進行標記。本發(fā)明在命名實體識別時間要素的基礎上增加案發(fā)時間識別模型,準確識別并提取案發(fā)時間信息,為民警快速準確分析警情、核查警情提供業(yè)務便利和支持。
技術領域
本發(fā)明屬于公安警情文本提取技術領域,尤其是一種警情文本的標準案發(fā)時間提取方法及系統(tǒng)。
背景技術
文本中的時間要素提取技術已經(jīng)比較成熟,作為一種命名實體識別任務,正則表達式、序列標注模型等方法都可以取得很好的效果。其中,正則表達式基于固定的時間表述模板對文本進行匹配;而序列標注模型依賴事先標注好的文本數(shù)據(jù),通過人工的標簽讓機器學習到時間要素在文本序列中的特征。
但是在公安警情系統(tǒng)中,如何區(qū)分警情文本中每個時間要素的屬性并將其轉化為標準的時間格式以進行多個時間關系的推理,都是目前的技術沒有涉及到的。警情文本中的時間要素分為報警時間、案發(fā)時間以及其它背景時間等。其中,案發(fā)時間在特定的場景下是一個時間段或時間點。目前,現(xiàn)有技術中的現(xiàn)有模型難以對警情文本中的案發(fā)時間的進行準確提取,大大增加民警的業(yè)務壓力。
發(fā)明內容
本發(fā)明提供了一種警情文本的標準案發(fā)時間提取方法及系統(tǒng),以解決現(xiàn)有技術中存在的問題。
為實現(xiàn)上述目的,本發(fā)明采用以下技術方案:
一種警情文本的標準案發(fā)時間提取方法,包括:
步驟1:將警情文本中的時間要素以命名實體識別的方式按順序依次進行提取;
步驟2:將警情文本切分成多個文本分句,并構建文本分句與時間要素的鍵值對;
步驟3:建立并訓練案發(fā)時間識別模型,通過案發(fā)時間識別模型對文本分句中的表述內容進行識別以確定案發(fā)時間;
步驟4:將確定的案發(fā)時間進行標準化處理;
步驟5:對標準化處理后的案發(fā)時間進行合并處理,并進一步對合并后的案發(fā)時間進行標記。
在進一步的實施例中,所述步驟1采用正則表達式提取時間要素,具體過程為:
步驟11:首先去除警情文本中括號內的內容,排除括號內容中的時間要素干擾信息;
步驟12:然后利用正則表達式對文本中的時間要素進行提取,正則表達式為:([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[時|點])?([0-9]{0,2}分);
式中:
([0-9]{4}年),表示四位數(shù)字加“年”,用來匹配年時間;
([0-9]{1,2}月),表示一位或兩位數(shù)字加“月”,用來匹配月時間;
([0-9]{1,2}日),表示一位或兩位數(shù)字加“日”,用來匹配日時間;
(今|昨|前)[\\u4E00-\\u9FA5],用來匹配“今天”、“昨天”以及“前天”的相對日期描述;
(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用來匹配“夜里”、“早上”、“上午”、“下午”的時段描述;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經(jīng)中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011195667.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





