[發明專利]一種基于因子圖的金融公報文本知識提取方法有效
| 申請號: | 201710326920.6 | 申請日: | 2017-05-10 |
| 公開(公告)號: | CN107247739B | 公開(公告)日: | 2019-11-01 |
| 發明(設計)人: | 陳華鈞;陳曦;張寧豫;吳朝暉 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 因子 金融 公報 文本 知識 提取 方法 | ||
本發明公開了一種基于因子圖的金融公報文本知識提取方法,包括:(1)從金融數據庫上獲取滿足預設特定關系的文本數據,并對其預處理,得到數據A;(2)對數據A進行弱監督學習得到數據A1;(3)對數據A1進行候選實體識別,構建得到候選實體對集B1;(4)根據建立的正則表達式在金融公報文本中匹配得到滿足特定預設關系的候選實體對集B2;(5)分別對候選實體對集B1、B2中候選實體對的進行特征提取,得到特征向量集C1與C2;(6)利用C1、C2對因子圖模型進行訓練,得到金融文本知識抽取模型;(7)將預測樣本輸入至金融文本知識抽取模型中,將輸出概率值大于閾值的實體對作為抽取結果。
技術領域
本發明涉及計算機文本抽取技術,具體涉及一種基于因子圖的金融公報文本知識提取方法。
背景技術
隨著網絡技術的不斷發展,互聯網上的信息量也在爆炸性的增長。據統計每天互聯網上流通的信息量超過1000PB。如何從海量信息中快速有效的提取出需要的信息和知識,成為了非常重要的研究方向。隨著互聯網上一些大規模知識庫在扮演著越來越重要的角色,知識庫的構建工作也越來越成為研究高點,傳統的文本知識抽取方法基于各領域專家的人工整合,已經無法處理如此大規模的信息抽取,因此基于機器學習的信息抽取方法成為了大數據時代的主流方法。
近幾年來,基于機器學習的文本挖掘算法逐步完善起來,各大互聯網公司出現了一些實用的技術和相關產品,例如google通過多種提取技術融合構建了超大規模的Knowledge Vault,它可以自主學習互聯網上網頁、圖表、文本等多種來源的數據從而生成知識庫。但是相關領域一些開源的實用文本知識提取方法還非常少見,尤其是面向中文文本的工具更是十分缺乏。另一方面,因子圖模型具有很強的計算和表達能力,能在概率推理過程中表達各種模型,例如貝葉斯網絡、無向圖等,近幾年來在信息抽取方面取得了很好的效果,不僅在多個垂直領域得到廣泛應用,同時也在各種英文信息抽取競賽中取得了很好的成績。因此可以考慮借助因子圖模型來完成中文文本知識的抽取。而金融公報中包含了很多有意義的知識信息,這些結構化的信息對于金融人員進行金融數據的分析有著非常重要的作用,如何使用一種自動化的知識提取方法對于實現金融智能有著重大的意義。
發明內容
鑒于上述,本發明提供了一種基于因子圖的金融公報文本知識提取方法,用于提取金融公報中的有關股權交易相關的知識。
一種基于因子圖的金融公報文本知識提取方法,包括以下步驟:
(1)從金融數據庫上獲取滿足預設特定關系的文本數據,并對這些文本數據進行預處理,得到預處理數據A;
(2)以預處理數據A作為弱監督學習的正樣本,以通過負抽樣方法建立的數據作為弱監督學習的負樣本,進行弱監督學習,得到數據A1;
(3)對數據A1進行候選實體(mention)識別,構建得到候選實體對集B1;
(4)建立一個正則表達式,并根據正則表達式在金融公報文本中匹配得到滿足特定預設關系的文本數據,并對該些文本數據進行預處理,得到候選實體對集B2;
(5)分別對候選實體對集B1、B2中候選實體對的進行特征提取,得到候選實體對集B1的特征向量集C1與候選實體對集B2的特征向量集C2,并將特征向量集C1、C2存儲到數據庫中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710326920.6/2.html,轉載請聲明來源鉆瓜專利網。





