[發明專利]一種警情文本的標準案發時間提取方法及系統在審
| 申請號: | 202011195667.3 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112541075A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 葉愷翔;呂曉寶;王堅;胡祥月;宋劍鋒;王元兵;王海榮 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/295;G06Q50/26 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 211102 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標準 案發 時間 提取 方法 系統 | ||
1.一種警情文本的標準案發時間提取方法,其特征在于,包括:
步驟1:將警情文本中的時間要素以命名實體識別的方式按順序依次進行提?。?/p>
步驟2:將警情文本切分成多個文本分句,并構建文本分句與時間要素的鍵值對;
步驟3:建立并訓練案發時間識別模型,通過案發時間識別模型對文本分句中的表述內容進行識別以確定案發時間;
步驟4:將確定的案發時間進行標準化處理;
步驟5:對標準化處理后的案發時間進行合并處理,并進一步對合并后的案發時間進行標記。
2.根據權利要求1所述的警情文本的標準案發時間提取方法,其特征在于,所述步驟1采用正則表達式提取時間要素,具體過程為:
步驟11:首先去除警情文本中括號內的內容,排除括號內容中的時間要素干擾信息;
步驟12:然后利用正則表達式對文本中的時間要素進行提取,正則表達式為:([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[時|點])?([0-9]{0,2}分);
式中:
([0-9]{4}年),表示四位數字加“年”,用來匹配年時間;
([0-9]{1,2}月),表示一位或兩位數字加“月”,用來匹配月時間;
([0-9]{1,2}日),表示一位或兩位數字加“日”,用來匹配日時間;
(今|昨|前)[\\u4E00-\\u9FA5],用來匹配“今天”、“昨天”以及“前天”的相對日期描述;
(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用來匹配“夜里”、“早上”、“上午”、“下午”的時段描述;
([0-9]{1,2}[時|點]),表示一位或兩位數字加“時”或“點”,用來匹配具體小時;
([0-9]{1,2}分),表示一位或兩位數字加“分”,用來匹配具體分鐘。
3.根據權利要求1所述的警情文本的標準案發時間提取方法,其特征在于,所述步驟2進一步為:
首先,將提取到的時間要素按照警情文本中出現的先后順序依次進行排列,并將第一個時間定為報警時間;
然后,通過標點符號正則匹配,將警情文本切分成多個文本分句;
最后,確定除報警時間以外的時間要素所在的文本分句;如果文本分句中包含時間要素,且該文本分句的左右兩個分句不包含時間要素,則將左右兩個不包含時間要素的文本分句與包含時間要素的分句進行合并形成新的文本分句;構建時間要素與文本分句一一對應的鍵值對。
4.根據權利要求1所述的警情文本的標準案發時間提取方法,其特征在于,所述步驟3中的案發時間識別模型包括預訓模型和判別模型,所述;
所述預訓模型首先建立數據庫,該數據庫中的訓練數據來源于人工標記案發時間的歷史警情數據,通過將警情文本中含有時間要素的文本分句與訓練數據進行對比,確定警情文本中的案發時間;并且,對判別后的文本分句數據進行自動標記后補充進數據庫;
所述判別模型包括輸入層、隱藏層以及輸出層;輸入層為對警情文本進行切分的含有時間要素的文本分句,節點數為文本分句的數量;隱藏層為預訓過程中新補入數據庫中的數據以及數據庫中原有的數據;輸出層為通過對比確定文本分句中時間要素的是否為案發時間,輸出層的節點的數量與需要進行判別文本分句的數量相等;針對判別過程出現超過訓練數據庫的數據外延情況,所述通過人為對輸入的文本分句進行處理,并將處理后的數據補入數據庫,所述隱藏層的數據隨著訓練過程的增加逐漸增多;
所述判別模型對判別結果進行誤差測算:
式中,Xij為含有時間要素的文本分句樣本,P(Xij)為文本分句中時間要素為案發時間的概率,Q(Xij)為文本分句中時間要素非案發時間的概率,并且P(Xij)+Q(Xij)=1,M為隱藏層的節點數,N為含有時間要素的文本分句樣本數量;H(P,Q)值越小,代表判別結果的誤差越小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011195667.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種受熱均勻節省能源的燈具用熱板模具
- 下一篇:一種動簧與軛鐵的連接結構





