[發明專利]互聯網金融產品宣傳收益率和承諾提取方法及系統在審
| 申請號: | 202010208512.2 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111581472A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 部慧;吳俊杰;李曄林;張玨;陳禹舟;張俊杰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/33;G06F16/35;G06Q30/02;G06Q40/06 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙) 11369 | 代理人: | 卞靜靜 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 金融 產品 宣傳 收益率 承諾 提取 方法 系統 | ||
1.互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,其包括:
從公開互聯網中獲取金融類文本數據;
基于所述金融類文本數據中挖掘收益率表述的基礎規則,對所述收益率表述的基礎規則進行泛化,得到收益率表述的規則庫;基于所述收益率表述的規則庫,通過文本匹配算法從所述金融類文本數據中提取得到收益率表述文本數據;
基于預設的承諾關鍵詞組,通過文本匹配算法從所述金融類文本數據中提取得到各類承諾表述文本數據;
基于預設的收益率映射關系規則表,將所述收益率表述文本數據轉換成可識別的收益率數值。
2.如權利要求1所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,所述從公開互聯網中獲取金融類文本數據具體為:
從公開的互聯網中利用爬蟲技術爬取產品宣傳的文本數據,記為原始文本數據;
對原始文本數據經過三次垃圾過濾處理,分別去除原始文本數據中的無意義信息、非金融類的文本數據和非相關互聯網金融平臺的文本數據,最終獲得金融類文本數據。
3.如權利要求1所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,所述預設的收益率映射關系規則表中,每條收益率映射關系規則對應一種收益率轉換方式;
所述收益率表述文本數據轉換成可識別的收益率數值后,剔除收益率小于0或大于1的收益率數值。
4.如權利要求1所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,所述承諾關鍵詞組包括多個人為定義的承諾關鍵詞,且每個關鍵詞對應一種承諾類型,承諾類型包括保本承諾、收益承諾和擔保承諾。
5.如權利要求1所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,原始文本數據的第一次垃圾過濾具體為:
通過文本匹配方法去除原始文本數據中的特殊標點符號;
通過正則表達式方法去除原始文本數據中的以“http://”開頭的url網址信息;
通過正則表達式方法去除原始文本數據中標志信息,其中標志信息包括提醒好友標志、轉發標志信息;
通過文本匹配和正則表達式方法去除原始文本數據中的表情符和特殊字符信息,得到去除無意義信息的一次過濾的文本數據。
6.如權利要求5所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,原始文本數據的第二次垃圾過濾具體為:
在一次過濾的文本數據中隨機抽取樣本數據,并對樣本數據進行標注,并利用分詞結果訓練線性支持向量機分類模型,將一次過濾的文本數據作為輸入值,金融類文本數據作為輸出值,得到去除非金融類文本數據的二次過濾后的文本數據;
其中,原始文本數據在進行第二次垃圾過濾之前,還包括利用中文分詞工具對一次過濾后的文本數據進行分詞,然后基于自定義的用戶詞典,對一次過濾后的文本數據進行詞頻刪選,刪除一次過濾后的文本數據中的低頻詞和高頻詞。
7.如權利要求6所述的互聯網金融產品宣傳收益率和承諾提取方法,其特征在于,原始文本數據的第三次垃圾過濾具體為:
預設互聯網金融平臺名稱組,基于預設的互聯網金融平臺名稱組在二次過濾后的文本數據中匹配獲取去除非相關互聯網金融平臺的文本數據的金融類文本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010208512.2/1.html,轉載請聲明來源鉆瓜專利網。





