[發明專利]一種面向金融領域的知識抽取方法有效
| 申請號: | 201711407789.2 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108153729B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 文衛東;劉健博 | 申請(專利權)人: | 武漢數博科技有限責任公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F40/205;G06F40/143;G06F16/31;G06F16/33 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430071 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 金融 領域 知識 抽取 方法 | ||
本發明涉及了一種面向金融領域的知識提取方法。首先將需要提取的金融領域文本內容進行預處理,采用統一的標簽式語言描述待提取文本內容,并對文本中的金融實體內容進行識別;然后采用可定制的知識提取模塊從語義層面對文本內容進行快速實時的提取,并對提取結果進行可信度評分,同時,引入專家知識模塊對識別結果進行修正。最后按照特定存儲格式將提取的知識進行存儲。本發明面向金融領域,給出了一種高效準確的金融知識提取方法,為金融領域的自動化和智能化提供基礎數據支撐。
技術領域
本發明涉及金融知識抽取技術領域,主要涉及金融領域指標、關系和事件等知識的自動提取。
背景技術
隨著計算能力的增強和互聯網的普及,計算機與金融領域的結合也越來越密切,現階段在自動化交易系統、智能投顧、欺詐識別等場景下已經取得的一定的成果。在金融領域,迅速、全面、準確地獲取有價值的行業信息是決定一個企業成敗的關鍵。近些年,隨著互聯網和金融行業的快速發展,每天都有大量的金融文本產生,面對著海量的公司年報、公告、新聞,其內容分散,數據稀疏,無結構化信息等特點逐漸凸顯。如何在數據爆炸的信息中高效找到有價值的知識,將有價值的無結構化信息進行半結構化或結構化是首先需要解決的問題,而信息抽取則是知識發現的核心之一。信息抽取作為文本處理的一項主要技術,目的是將特定的事實信息(Factual Information)從文本數據中抽取出來。將非結構化的信息結構化是信息抽取要解決的主要問題,結構化信息可以使人們能更好地從無限多的文本中排除無用信息從而獲得真正所需的信息。為了達到信息抽取的目的,單是對實體進行識別還不足以滿足實際應用的需求。從相關文本中獲取重要指標,同時判斷出存在于這些實體之間的關系和實體相關的事件獲取更為關鍵,這就是信息抽取的重要子任務之一——知識抽取。知識抽取是指從數字資源中識別、發現和提取出概念、類型、事實及其相關關系、約束規則,以及進行問題求解的步驟、規則的過程。金融領域知識抽取較為復雜,行業術語較多,但是相關抽取結果對決策者或投資者的商業計劃和決定產生一定影響,因而高效準確的知識抽取將為金融活動中的個人或企業提供極大價值的商業信息,在許多金融場景下都有廣闊的應用前景。如:在自動化交易系統中,可以將抽取的知識進行量化,達到收益最大化。在機構信用評級中,可以收集評級影響因素進行自動收集,快速對機構信用進行評級。
目前在金融領域中,文本內容的知識抽取主要依靠人工判斷,分析人員一般需要閱讀大量的相關文檔(如:年報、公告、行業分析報告、新聞等),然后從中獲取關鍵信息,為決策提供依據。這種手工作業的方式效率較低,且依賴于從業人員的經驗,學習門檻較高,不利于企業業務進一步拓展。
通過觀察可以發現計算機具有自動處理相關金融文本的潛能,使用計算機實現文本中的知識抽取,第一步就是要理解文本中表達出的信息對應的含義。計算機領域中的自然語言處理技術(NLP)是作為一門融合語言學、計算機科學、數學等學科特點于一體的技術,自然語言處理(NLP)技術的研究任務主要是使計算機可以使用正常生活中人類的語言和人類進行互動,讓人機之間的交互像人與人之間交流的那樣方便。通過自然語言處理的相關技術可以從文本中取得半結構化的知識描述,然后由半結構化知識而構造的金融領域知識圖譜,領域知識圖譜在解決金融領域相關問題時具有重要意義。
針對這一問題,本專利主要目標是:面向金融領域,根據特定需求快速對文檔進行知識抽取。
發明內容
本發明主要面向金融領域,針對特定文本自動提取文本中相關實體間關系、事件以及指標,為金融領域的相關機構和企業提供決策依據。
步驟如下:
一種面向金融領域的知識抽取方法,其特征在于,包括:
步驟1.根據需求確定數據來源,獲得相關的源文件,產生待處理數據集合D={d1,d2,...,dn},其中di表示第i個文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢數博科技有限責任公司,未經武漢數博科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711407789.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種關鍵詞確定方法及裝置
- 下一篇:生僻字處理方法、計算設備及計算機存儲介質





