[發明專利]一種基于深度學習和規則引擎的文本信息抽取方法及系統在審
| 申請號: | 202010449750.2 | 申請日: | 2020-05-25 |
| 公開(公告)號: | CN111538805A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 金勇;朱其斯;胡華;孫濤 | 申請(專利權)人: | 武漢烽火普天信息技術有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/205;G06F40/30;G06N3/04 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 安曼 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 規則 引擎 文本 信息 抽取 方法 系統 | ||
本發明涉及一種基于深度學習和規則引擎的文本信息抽取方法及系統,所述方法具體包括以下步驟:S1:將輸入的公安文檔解析成可處理文本,并進行無用字符清洗及段落切割;S2:針對切割后的段落,抽取段落中所有出現的涉案涉線人員姓名與地址信息;S3:采用規則引擎抽取文檔中涉案涉線人員相關屬性,同時利用時間識別算法抽取段落中包含的線索信息;S4:通過語義理解模塊確定S3中抽取的人員、線索信息對應關系,并進行人員稱呼消歧及多關系融合,最后輸出結構化結果。本申請的文本信息抽取方法和系統,采用深度學習模型與規則引擎相結合,促進非結構化文檔信息的利用,實現人員與線索的快速相關聯,提升公安民警的判案效率。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種基于深度學習和規則引擎的文本信息抽取方法及系統。
背景技術
當存在多個文檔描述同一實體(人員、組織等)及其關聯之間的依存關系時,若以非結構化文檔形式留存,則在后期對于這些文檔的高效利用存在較大瓶頸。例如,在公安行業中,多個公安民警在對同一個人(組織)進行調查時,會將自己調查得到的線索或記錄以文檔形式留存,使得被調查人的信息會以非結構化的長文本形式存儲,短則幾百字,長則上萬字。因而會導致在后續線索文檔利用過程中,無法對這些線索信息進行快速檢索,或者進行深度融合分析,或者難以將相關案件情報關聯到其他相關人員身上。
發明內容
為了克服現有技術的上述不足,本發明提出了一種基于深度學習和規則引擎的文本信息抽取方法及系統,解決現有公安文檔利用效率低,在線索信息檢索、深度融合分析及案件人員的相關聯上難度大的技術問題。
本發明是通過以下技術方案實現的:
一種基于深度學習和規則引擎的文本信息抽取方法,具體包括以下步驟:
S1:將輸入的公安文檔解析成可處理文本,并進行無用字符清洗及段落切割;
S2:針對切割后的段落,抽取段落中所有出現的涉案涉線人員姓名與地址信息;
S3:采用規則引擎抽取文檔中涉案涉線人員相關屬性,同時利用時間識別算法抽取段落中包含的線索信息;
S4:通過語義理解模塊確定S3中抽取的人員、線索信息對應關系,并進行人員稱呼消歧及多關系融合,最后輸出結構化結果。
進一步的,S1中文檔解析、字符清洗、段落切割及S2中人員抽取所采用的模型結構是BiLSTM+CRF模型。
進一步的,S3中抽取文檔中涉案涉線人員相關屬性包括:根據預先配置的人員屬性規則和人員關系規則,采用規則引擎抽取文檔中涉案涉線人員屬性和人員之間的親屬社會關系。
進一步的,S4中多關系融合時,消除重復信息,合并人員互補信息。
進一步的,S4中語義理解模塊輸出的bad case數據經收集標注后輸出到規則引擎的規則庫和語義解析模塊的模型訓練中。
一種基于深度學習和規則引擎的文本信息抽取系統,包括:
數據預處理模塊,將輸入的公安文檔解析成可處理文本,并進行無用字符清洗及段落切割;
語義解析模塊,針對切割后的段落,抽取段落中所有出現的人員姓名與地址信息;
知識規則模塊,采用規則引擎抽取文檔中涉案涉線人員相關屬性,同時利用時間識別算法抽取段落中包含的線索信息;
語義理解模塊,確定抽取的人員、線索信息對應關系,并進行人員稱呼消歧及多關系融合,最后輸出結構化結果。
與現有技術相比,本發明的有益效果在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢烽火普天信息技術有限公司,未經武漢烽火普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010449750.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復雜曲面薄壁零件脈動式充液拉深的裝置與方法
- 下一篇:一種智能安防巡邏車





