[發明專利]一種多類型時間實體消岐歸一化處理系統及方法在審
| 申請號: | 202210381687.2 | 申請日: | 2022-04-12 |
| 公開(公告)號: | CN114722814A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 于偉;靳雯;趙洲洋;石江楓;王全修;王明超 | 申請(專利權)人: | 北京睿企信息科技有限公司;日照睿安信息科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 張朝元 |
| 地址: | 100013 北京市東*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 類型 時間 實體 歸一化 處理 系統 方法 | ||
1.一種多類型時間實體消岐歸一化處理系統,其特征在于,包括時間實體標準化組件模塊、事件情報消歧組件模塊、標準時間的歸一化組件模塊,其中,
所述時間實體標準化組件模塊,用于去除自然語言中的噪音,完成自然語言文本的結構化,及識別實體中的年月日信息,其包含時間預處理子模塊、標準時間正則化子模塊、時間結構化子模塊;
所述時間情報消岐組件模塊,具體包括事件指向日期、事件開始時間及情報創建時間,為通過計算時間偏移,推斷事件指向日期,其包含時間偏移計算子模塊、時間組合子模塊;
所述標準時間的歸一化組件模塊,為將標準的時間歸一化為重大節日、敏感節點完成并標準化輸出。
2.根據權利要求1所述的多類型時間實體消岐歸一化處理系統,其特征在于,所述時間預處理子模塊,包括以下步驟:
S21: 輸入時間實體,對所有字符完成全角轉半角的轉換;
S22: 再清除字符串中的空白符、非法字符以及預期助詞;
S23: 再將大寫數字轉化為阿拉伯數字,對字符串中出現的各種數字的表述都轉化為阿拉伯數字;
S34: 對字符串中出現容易與數字混淆的字母完成數字轉換。
3.根據權利要求1所述的多類型時間實體消岐歸一化處理系統,其特征在于,所述標準時間正則化子模塊,通過利用正則表達式,設計特征,提取輸入的標準化時間中的年月日信息,完成結構化輸出。
4.根據權利要求1所述的多類型時間實體消岐歸一化處理系統,其特征在于,所述時間結構化子模塊,判斷非結構化的時間實體是否為節假日、標準時間格式,提取出不標準的格式時間字符串。
5.根據權利要求1所述的多類型時間實體消岐歸一化處理系統,其特征在于,所述時間偏移計算子模塊,進行提取計劃日期plan_date中完整的年月日日期,并判斷分別是否被提取出,若沒有被提取過則計算并提取該偏移量,若被提取過,最終返回年月日。
6.一種多類型時間實體消岐歸一化處理方法,其特征在于,包括以下步驟:
S1: 首先輸入三類時間實體,為時間實體為事件指向日期、事件開始時間及情報創建時間,對三類時間實體結構化信息;
S2: 所述情報創建時間為標準化的時間格式,通過標準時間正則化子模塊,完成情報創建時間實體的正則化,輸出情報創建時間的年月日信息;
S3: 所述事件指向日期與事件開始時間實體,通過時間預處理子模塊去除自然語言中的噪音,再通過基于規則的時間結構化子模塊,完成自然語言文本的結構化,并識別實體中的年月日信息;
S4: 三類時間實體完成年月日結構化信息后,經過推斷計算出事件的指向日期;
S5: 進行定義事件指向日期輸出格式和完成事件指向日期輸出。
7.根據權利要求6所述的多類型時間實體消岐歸一化處理方法,其特征在于,所述定義事件指向日期輸出格式,按照業務要求的格式重新定義事件指向日期,按照年月日順序排序后輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京睿企信息科技有限公司;日照睿安信息科技有限公司,未經北京睿企信息科技有限公司;日照睿安信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210381687.2/1.html,轉載請聲明來源鉆瓜專利網。





