[發(fā)明專利]一種基于文檔結(jié)構(gòu)與深度學(xué)習(xí)的金融類公告信息抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811549314.1 | 申請(qǐng)日: | 2018-12-18 |
| 公開(公告)號(hào): | CN109857990B | 公開(公告)日: | 2022-11-25 |
| 發(fā)明(設(shè)計(jì))人: | 黃勝;王博博;李勝 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F40/14 | 分類號(hào): | G06F40/14;G06F40/289;G06F40/30;G06F40/211 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文檔 結(jié)構(gòu) 深度 學(xué)習(xí) 金融類 公告 信息 抽取 方法 | ||
本發(fā)明涉及一種基于文檔結(jié)構(gòu)與深度學(xué)習(xí)的金融類公告信息抽取方法,屬于信息抽取技術(shù)領(lǐng)域。該方法包括:S1:生成文檔結(jié)構(gòu)樹;S2:抽取節(jié)點(diǎn)信息:基于文檔結(jié)構(gòu)樹設(shè)計(jì)便捷的查找節(jié)點(diǎn)信息的方法,利用規(guī)則提取樹的節(jié)點(diǎn)信息;S3:抽取信息句:對(duì)于已抽取到的節(jié)點(diǎn)信息,定義句子觸發(fā)詞集,在句子觸發(fā)詞集的基礎(chǔ)上,拓展包含觸發(fā)詞集的局部句子結(jié)構(gòu)規(guī)則,從而抽取符合規(guī)則的信息句;S4:訓(xùn)練詞向量:預(yù)訓(xùn)練上下文的詞向量,并利用CNN訓(xùn)練字符詞向量;S5:抽取結(jié)構(gòu)化信息:構(gòu)建基于Bi?LSTM?CRF的深度學(xué)習(xí)模型,訓(xùn)練該模型進(jìn)行字段識(shí)別。本發(fā)明能快速高效且在人工干預(yù)較少的情況下準(zhǔn)確提取出所需的各類結(jié)構(gòu)化信息。
技術(shù)領(lǐng)域
本發(fā)明屬于信息抽取技術(shù)領(lǐng)域,涉及文檔結(jié)構(gòu)及深度學(xué)習(xí)在金融類公告信息抽取中的應(yīng)用。
背景技術(shù)
在投資研究過程中,上市公司金融類公告是投資者的重要參考材料,挖掘公告中的重要信息是決定性的步驟。但是,海量公告信息讓人腦難以負(fù)荷,如果機(jī)器能夠根據(jù)需求,自動(dòng)分析、過濾、抽取有價(jià)值的結(jié)構(gòu)化數(shù)據(jù),就能幫助研究員快速獲取投資線索,從而做出最及時(shí)、準(zhǔn)確的決策。上市公司信息披露的金融類公告一般包括年度報(bào)告、季度報(bào)告等等。具體到各個(gè)重大事件信息包括并購(gòu)重組、關(guān)聯(lián)交易、投資融資等都會(huì)在公告中體現(xiàn)。因此對(duì)上市公司金融類公告中的信息進(jìn)行結(jié)構(gòu)化的提取具有重要意義。
信息抽取(Information Extraction)是指從自然語言形式的文檔中抽取人們所感興趣的信息,并將其轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化信息的過程。通常,信息抽取利用機(jī)器學(xué)習(xí)、自然語言處理(NLP)等方法從上述文本中抽取出特定的信息后,保存到結(jié)構(gòu)化的數(shù)據(jù)庫當(dāng)中,以便用戶查詢和使用。
結(jié)構(gòu)化字段信息抽取任務(wù)可以看作是NLP中的序列標(biāo)注(Sequence labeling)任務(wù)。目前的主要方法分為:基于規(guī)則和詞典的方法、基于機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法。程志剛在“基于規(guī)則和條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別方法研究,華中師范大學(xué),2015”中提出了一種基于規(guī)則和條件隨機(jī)場(chǎng)(Conditional random field,CRF)的命名實(shí)體識(shí)別方法,需要依賴于人工定制的特征抽取模板,代價(jià)很大。為了避免這一缺點(diǎn),近年來多數(shù)研究者將深度學(xué)習(xí)應(yīng)用于NLP領(lǐng)域。例如“Chiu J P,Nichols E.Named EntityRecognition with Bidirectional LSTM-CNNs[J].Transactions of the Associationfor Computational Linguistics,2015,4(0):357-370”中,提出結(jié)合長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行命名實(shí)體識(shí)別,但是CNN容易丟失局部信息;“Ma X,Hovy E H.End-to-end SequenceLabeling via Bi-directional LSTM-CNNs-CRF[J].Meeting of the Association forComputational Linguistics,2016:1064-1074”在Chiu的基礎(chǔ)上引入CRF層,增強(qiáng)標(biāo)簽之間的依賴;“Strubell E,Verga P,Belanger D,et al.Fast and Accurate EntityRecognition with Iterated Dilated Convolutions[C]//eprint arXiv.eprint arXiv:1702.02098”在CNN的基礎(chǔ)上構(gòu)建迭代卷積神經(jīng)網(wǎng)絡(luò)模型用于序列標(biāo)注問題,解決了CNN不能解決的長(zhǎng)距離依賴問題。
因此,結(jié)合文檔結(jié)構(gòu)與深度學(xué)習(xí)相關(guān)模型進(jìn)行金融類公告信息抽取的研究,能夠克服傳統(tǒng)人工提取的代價(jià)大,泛化能力弱的問題,對(duì)快速高效的抽取所需結(jié)構(gòu)化信息具有重要意義。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種通用的金融類公告信息抽取方法,能夠快速高效且在人工干預(yù)較少的情況下準(zhǔn)確提取出所需的各類結(jié)構(gòu)化信息。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811549314.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





