[發明專利]一種基于文檔結構與深度學習的金融類公告信息抽取方法有效
| 申請號: | 201811549314.1 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109857990B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 黃勝;王博博;李勝 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F40/14 | 分類號: | G06F40/14;G06F40/289;G06F40/30;G06F40/211 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文檔 結構 深度 學習 金融類 公告 信息 抽取 方法 | ||
1.一種基于文檔結構與深度學習的金融類公告信息抽取方法,其特征在于,該方法具體包括以下步驟:
S1:生成文檔結構樹:利用自定義文檔結構樹算法將公告文本轉化為層級分明樹形結構;
S2:抽取節點信息:基于文檔結構樹設計便捷的查找節點信息的方法,利用規則提取樹的節點信息;
S3:抽取信息句:對于已抽取到的節點信息,定義句子觸發詞集,在句子觸發詞集的基礎上,拓展包含觸發詞集的局部句子結構規則,從而抽取符合規則的信息句;
S4:訓練詞向量:預訓練上下文的詞向量,并利用卷積神經網絡(ConvolutionalNeural Network,CNN)訓練字符詞向量;
S5:抽取結構化信息:構建基于雙向長短時記憶神經網絡-條件隨機場(Bidirectional-Long Short-Term Memory-Conditional Random Field,Bi-LSTM-CRF)的深度學習模型,訓練該模型進行字段識別;
步驟S1中,所述自定義文檔結構樹生成算法具體為:
輸入:公告文本;
輸出:深度序列表示的樹結構;每個節點node包括:節點標題title、節點深度di和節點內容text;di越大表示層級越高,nodenm表示第n個節點的第m個子節點;
S11:若目錄存在,提取公告文本自帶的目錄,記錄各個標題的節點深度di,其中di=1,2,…,n,添加至樹結構;若不存在目錄,記正文第一條符合節點標題規則為rule1,繼續遍歷正文找到所有符合rule規則的段落,視為一級節點,添加至樹結構;生成初步樹,記為tree0;
S12:按序遍歷tree0,取相鄰節點noden,noden+1,其中dn=dn+1,記錄兩節點在節點標題規則集中對應的節點標題規則及節點深度d,生成已有節點規則-深度集{rule-d}0;
S13:遍歷{noden,noden+1}之間的文本內容,若某段落符合節點標題規則集中的節點標題規則rulex且不在{rule-d}0中,記為noden的子節點nodenm,深度dm=dn+1,追加至以noden為根節點的子樹tree1中,rulex和dm加入{rule-d}1中,執行步驟S14;若在{rule-d}0中,重復步驟S12;
S14:若某段落符合節點標題規則集中的節點標題規則rulex,若在{rule-d}0中,重復步驟S12;rulex不在{rule-d}0且不在{rule-d}1中,記nodemk,加入tree1,深度dk=max(d:{rule-d}1)+1,rulex和dk加入{rule-d}1中;rule不在{rule-d}0且在{rule-d}1中,記nodenm+1,深度dm+1=d:{rulex-d},加入tree1;
S15:將步驟S14得到的各節點子樹tree1按順序及深度加入tree0中,并將正文目錄之前的“聲明”、“重大提示”的章節補充至tree0中,將各個節點的節點內容補充到樹中,生成一顆完整的文檔結構樹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811549314.1/1.html,轉載請聲明來源鉆瓜專利網。





