[發(fā)明專利]一種基于政策性資源匯聚的互聯(lián)網(wǎng)科技金融智能匹配方法在審
| 申請?zhí)枺?/td> | 201910318616.6 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110321471A | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設計)人: | 涂小東;李凱;黃麗;陳偉;王軍;李毅光 | 申請(專利權)人: | 四川政資匯智能科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/35;G06F16/335 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 李英 |
| 地址: | 610000 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 有效文本 質檢 抓取 分類 目標關鍵詞 關鍵詞庫 目標網(wǎng)頁 人工分類 網(wǎng)絡爬蟲 智能匹配 文本 互聯(lián)網(wǎng) 篩選 匯聚 分類處理 分類結果 匹配客戶 智能分類 預分析 客戶 過濾 金融 網(wǎng)頁 發(fā)送 應用 | ||
本發(fā)明公開了一種基于政策性資源匯聚的互聯(lián)網(wǎng)科技金融智能匹配方法,包括以下步驟:S1、建立關鍵詞庫,導入設定的目標關鍵詞;S2、設立網(wǎng)絡爬蟲,根據(jù)關鍵詞庫中的目標關鍵詞進行網(wǎng)頁目標抓取,獲得目標網(wǎng)頁文本;S3、對網(wǎng)絡爬蟲抓取的目標網(wǎng)頁文本進行文本預分析和過濾,篩選出有效文本;S4、對篩選出的有效文本進行分類處理,然后傳至質檢單元進行分類質檢;S5、將分類質檢通過的有效文本按照其分類發(fā)送給對應的客戶,將分類質檢不通過的有效文本進行人工分類,再發(fā)送至人工分類后對應的客戶。其應用時,可以實現(xiàn)互聯(lián)網(wǎng)政策性資源的精準高效收集,并對收集的政策性資源精準智能分類,然后根據(jù)分類結果對應發(fā)送給匹配客戶。
技術領域
本發(fā)明涉及數(shù)據(jù)分析處理技術領域,具體涉及一種基于政策性資源匯聚的互聯(lián)網(wǎng)科技金融智能匹配方法。
背景技術
互聯(lián)網(wǎng)應用遍及生活的方方面面,如即時通訊、社交網(wǎng)絡、新聞網(wǎng)站、智能生活家電等,我們已經(jīng)習慣依賴互聯(lián)網(wǎng)提供便捷的信息去了解世界、形成人際社交網(wǎng)絡,網(wǎng)絡交互過程中生成的信息大多是文本形式。文本信息成為互聯(lián)網(wǎng)社交媒體信息的重要承載者。
現(xiàn)有技術還沒有專門針對互聯(lián)網(wǎng)金融行業(yè)提供政策性資源收集匹配的有效技術手段。
發(fā)明內容
本發(fā)明針對現(xiàn)有技術存在的不足,提供一種基于政策性資源匯聚的互聯(lián)網(wǎng)科技金融智能匹配方法,其應用時,可以實現(xiàn)互聯(lián)網(wǎng)政策性資源的精準高效收集,并對收集的政策性資源精準智能分類,然后根據(jù)分類結果對應發(fā)送給匹配客戶。
本發(fā)明通過以下技術方案實現(xiàn):
一種基于政策性資源匯聚的互聯(lián)網(wǎng)科技金融智能匹配方法,包括以下步驟:
S1、建立關鍵詞庫,在關鍵詞庫中導入設定的目標關鍵詞;
S2、設立網(wǎng)絡爬蟲,將其與關鍵詞庫關聯(lián),并放入網(wǎng)絡中根據(jù)關鍵詞庫中的目標關鍵詞進行網(wǎng)頁目標抓取,獲得目標網(wǎng)頁文本;
S3、對網(wǎng)絡爬蟲抓取的目標網(wǎng)頁文本進行文本預分析和過濾,篩選出有效文本;
S4、對篩選出的有效文本進行分類處理,然后傳至質檢單元進行分類質檢;
S5、將分類質檢通過的有效文本按照其分類發(fā)送給對應的客戶,將分類質檢不通過的有效文本進行人工分類,再發(fā)送至人工分類后對應的客戶。
優(yōu)選地,在步驟S1中,關鍵詞庫包括主詞庫和目標詞庫,主詞庫用于存儲歷史關鍵詞數(shù)據(jù),目標詞庫用于導入目標關鍵詞,步驟S2中的網(wǎng)絡爬蟲與目標詞庫進行關聯(lián)。
優(yōu)選地,在步驟S1中,目標詞庫中的目標關鍵詞由客戶提供或/和從主詞庫中選取,其包括但不僅限于政府組織機構名稱、領域人物名稱、領域協(xié)會商會名稱、互聯(lián)網(wǎng)科技金融行業(yè)名詞。
優(yōu)選地,在步驟S2中,目標網(wǎng)頁文本抓取的步驟包括:
S21、將目標關鍵詞設定為網(wǎng)絡爬蟲的抓取種子;
S22、采用基于目標網(wǎng)頁特征、基于目標數(shù)據(jù)模式和基于領域概念并行的方式根據(jù)抓取種子抓取互聯(lián)網(wǎng)目標網(wǎng)頁文本;
S23、將抓取的目標網(wǎng)頁文本進行反饋,并集中存儲。
優(yōu)選地,在步驟S2中,所述網(wǎng)絡爬蟲包括通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲和深層網(wǎng)絡爬蟲。
優(yōu)選地,在步驟S3中,篩選有效文本的步驟包括:
S31、對所有目標網(wǎng)頁文本進行重復率檢索,對內容重復率達到設定閾值的多個目標網(wǎng)頁文本進行提??;
S32、將提取出的多個目標網(wǎng)頁文本進行字數(shù)比對,留下字數(shù)最多的一個,其余丟棄;
S33、建立敏感詞庫,利用敏感詞庫對未提取和提取比對留下的目標網(wǎng)頁文本進行敏感詞句檢索;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川政資匯智能科技有限公司,未經(jīng)四川政資匯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910318616.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





