[發明專利]一種金融信貸短信的信息抽取和分析方法有效
| 申請號: | 201710233822.8 | 申請日: | 2017-04-11 |
| 公開(公告)號: | CN107423279B | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 程宏亮;李煒;饒思維;黃蓉;周靜 | 申請(專利權)人: | 美林數據技術股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/242;G06F40/253;G06F16/35;G06F16/36;G06F16/903;G06Q40/02 |
| 代理公司: | 西安毅聯專利代理有限公司 61225 | 代理人: | 楊燕珠 |
| 地址: | 710000 陜西省西安市高*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 金融 信貸 短信 信息 抽取 分析 方法 | ||
本發明公開了一種金融信貸短信的信息抽取和分析方法,包括:訓練構建信貸類短信分類模型;使用信貸類短信分類模型對信貸類短信進行識別,并篩選出信貸類短信;構造關鍵詞,并將篩選出的信貸類短信進行關鍵詞匹配后分析具體業務類型;構造信息抽取規則模板引擎;使用信息抽取規則模板引擎對具體業務類型進行信息點的抽取與結構化輸出。與現有技術相比,本發明提出了一種適用于金融領域的信貸短息的信息抽取方法,通過機器學習的分類算法和自然語言處理的信息抽取技術,結合規則引擎技術,具備高度的靈活性和可擴展性,實現短信逾期等高風險信息的自動抽取和高效識別。
技術領域
本申請涉及金融信貸短信的信息抽取與分析領域,具體涉及一種金融信貸短信的信息抽取和分析方法。
背景技術
金融機構向客戶發送的短信是文本形式的,需要從這些文本短信中分析出用戶是否出現逾期記錄,逾期行為的具體信息,如逾期時間、逾期金額、借款機構等。對于一個擁有TB級別數據量的金融企業而言,通過人工的方式逐條篩選出逾期相關的短信需要耗費大量的時間和人力成本。
傳統通過模糊查詢搜索匹配相關關鍵字的手段,也在這樣的情況下顯得效率低下。一是需要人工梳理大量的關鍵字,以窮舉所有可能的情況,可擴展需要花費精力;二是匹配的內容精準度差,效果難以保障,不能精準的識別出逾期的時間和逾期的金額;這樣就不能有效地發現短信客戶的失信風險,為金融風險控制和管理帶來很大挑戰。
發明內容
有鑒于此,從海量短信文本中精確快速地抽取和分析出所需的信息點并結構化之,需要一種更自動、更智能的方法,本申請基于自然語言處理、機器學習技術的集成,提供一種金融信貸短信的信息抽取和分析方法。本發明通過對短信文本內容進行分析,判斷其是否為信貸相關;再對信貸相關的短信進行更細粒度的解析,判斷其為逾期、放貸、申請等具體的業務類型;最后對逾期的短信做信息抽取,提取中其中的逾期金額、時間等,并將這些信息做結構化輸出。
為了實現上述目的,現提出的方案如下:
一種金融信貸短信的信息抽取和分析方法,包括:
訓練構建信貸類短信分類模型;使用信貸類短信分類模型對信貸類短信進行識別,并篩選出信貸類短信;
構造關鍵詞,并將篩選出的信貸類短信進行關鍵詞匹配后分析具體業務類型;
構造信息抽取規則模板引擎;使用信息抽取規則模板引擎對具體業務類型進行信息點的抽取與結構化輸出。
在本發明的一個優選實施例中,所述訓練構建信貸類短信分類模型,包括:
人工選取并按照信貸類和非信貸類短信數量1:1的比例構建訓練數據,對訓練數據的短信文本進行分詞序列化;
按照一定比例隨機抽取出訓練集與測試集,其中訓練集比例大于測試集比例,使用訓練集進行信貸類短信分類模型的構建,并在測試集上進行測試。
在本發明的一個優選實施例中,從訓練集短信文本集合中提取特征詞條,在訓練集短信文本集合中統計特征詞條與類別相關的概率,存儲概率分布作為模型;
在測試集上測試模型,重新調整特征詞條,保留最優信貸類短信分類模型。
在本發明的一個優選實施例中,所述使用信貸類短信分類模型對短信進行識別,包括:
對輸入的短信文本進行分詞序列化;
挑選特征詞條,查詢特征詞條在所述信貸類短信分類模型中的概率分布;
使用特征詞條的概率分布值,并輸出所述短信所屬最大概率的類別,所述類別包括信貸類或非信貸類。
在本發明的一個優選實施例中,將所述短信為信貸類的概率設置一個范圍值,使用特征詞條獲取的概率分布值大于所述范圍值時候,則將所述短信輸出為信貸類短信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于美林數據技術股份有限公司,未經美林數據技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710233822.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:評價要素的識別方法、裝置及系統
- 下一篇:一種語句判別方法與系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





