[發(fā)明專利]一種基于因子圖的金融公報文本知識提取方法有效
| 申請?zhí)枺?/td> | 201710326920.6 | 申請日: | 2017-05-10 |
| 公開(公告)號: | CN107247739B | 公開(公告)日: | 2019-11-01 |
| 發(fā)明(設計)人: | 陳華鈞;陳曦;張寧豫;吳朝暉 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 杭州天勤知識產(chǎn)權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 因子 金融 公報 文本 知識 提取 方法 | ||
1.一種基于因子圖的金融公報文本知識提取方法,包括以下步驟:
(1)從金融數(shù)據(jù)庫上獲取滿足預設特定關系的文本數(shù)據(jù),并對這些文本數(shù)據(jù)進行預處理,得到預處理數(shù)據(jù)A;
(2)以預處理數(shù)據(jù)A作為弱監(jiān)督學習的正樣本,以通過負抽樣方法建立的數(shù)據(jù)作為弱監(jiān)督學習的負樣本,進行弱監(jiān)督學習,得到數(shù)據(jù)A1;
(3)對數(shù)據(jù)A1進行候選實體識別,構建得到候選實體對集B1;
(4)建立一個正則表達式,并根據(jù)正則表達式在金融公報文本中匹配得到滿足特定預設關系的文本數(shù)據(jù),并對該些文本數(shù)據(jù)進行預處理,得到候選實體對集B2;
(5)分別對候選實體對集B1、B2中候選實體對的進行特征提取,得到候選實體對集B1的特征向量集C1與候選實體對集B2的特征向量集C2,并將特征向量集C1、C2存儲到數(shù)據(jù)庫中;
(6)將數(shù)據(jù)庫中的特征向量集C1、C2作為因子圖模型的輸入,以候選實體對集B1、B2中候選實體對對應的標記值作為因子圖模型的真值標簽,以目標函數(shù)y最大為目標,對因子圖模型進行訓練,得到金融文本知識抽取模型;
(7)將預測樣本輸入至金融文本知識抽取模型中,將輸出概率值大于閾值的實體對作為抽取結果。
2.如權利要求1所述的基于因子圖的金融公報文本知識提取方法,其特征在于,步驟(1)中與步驟(4)中,所述的對文本數(shù)據(jù)進行預處理的具體過程為:采用Stanford Corenlp或jieba工具對文本數(shù)據(jù)進行分詞、詞性標注、命名實體標注以及語法依賴處理。
3.如權利要求1所述的基于因子圖的金融公報文本知識提取方法,其特征在于,所述步驟(3)的具體步驟為:
首先,從數(shù)據(jù)A1中識別候選實體,排除錯誤和無意義的候選實體;
然后,對相同意義的候選實體做實體連接,將候選實體兩兩組合為候選實體對;
最后,去除重復和無意義的候選實體對,形成候選實體對集B1。
4.如權利要求1所述的基于因子圖的金融公報文本知識提取方法,其特征在于,步驟(3)中,所述候選實體識別采用了傳統(tǒng)命名實體識別、正則表達式過濾方法結合的方式。
5.如權利要求1所述的基于因子圖的金融公報文本知識提取方法,其特征在于,所述的特征提取具體為
提取實體對句子之間詞語序列的NER序列;
提取實體對句子之間詞語序列的POS序列;
提取詞典中的特征詞序列;
提取實體對左右兩側window的詞語序列;
提取實體對句子兩側詞語序列的NER序列;
提取實體對句子兩側詞語序列的POS序列。
6.如權利要求1所述的基于因子圖的金融公報文本知識提取方法,其特征在于,所述的目標函數(shù)y為:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子圖變量v1的概率值,σ(vaj)表示因子圖變量vaj的概率值,aj表示為與第j個變量有相關性的隨機變量的數(shù)目,f(·)表示因子圖各隨機變量之間的相關性表,wj表示f(·)的實數(shù)權重,Z[I]表示一個區(qū)分函數(shù),I表示可能的一種結果假設;Ie表示多種可能的結果假設組成的可能世界;fi∈f表示一個隨機變量以特定方式和其他變量的相關性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710326920.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





