[發(fā)明專利]基于不同信息源自動(dòng)生成報(bào)表的方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201711055134.3 | 申請(qǐng)日: | 2017-10-31 |
| 公開(kāi)(公告)號(hào): | CN107908606A | 公開(kāi)(公告)日: | 2018-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 王盼;李晨光 | 申請(qǐng)(專利權(quán))人: | 上海壹賬通金融科技有限公司 |
| 主分類號(hào): | G06F17/24 | 分類號(hào): | G06F17/24;G06F17/30;G06Q10/10 |
| 代理公司: | 北京英特普羅知識(shí)產(chǎn)權(quán)代理有限公司11015 | 代理人: | 林彥之 |
| 地址: | 200030 上海市*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 不同 信息源 自動(dòng) 生成 報(bào)表 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)服務(wù)技術(shù)領(lǐng)域,尤其涉及基于不同信息源自動(dòng)生成報(bào)表的方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)爆炸式的發(fā)展,每天都在產(chǎn)生著大量數(shù)據(jù),如何通過(guò)方法有效的分析海量數(shù)據(jù),并從其中找到有利的規(guī)格或資訊已經(jīng)成為一種趨勢(shì)。
在傳統(tǒng)的方法中,需要對(duì)用戶行為進(jìn)行人工分類、判定,并在后期提供有針對(duì)性的服務(wù)或其它處理應(yīng)對(duì)。在海量數(shù)據(jù)的場(chǎng)景下,數(shù)據(jù)往往維度多、數(shù)據(jù)量大,人工很難將用戶行為相關(guān)的指標(biāo)統(tǒng)計(jì)全面。此外,由于人會(huì)出現(xiàn)疲勞等情況,這種傳統(tǒng)的人工識(shí)別的方法準(zhǔn)確率并不高。
在互聯(lián)網(wǎng)逐漸步入大數(shù)據(jù)時(shí)代后,用戶的行為在服務(wù)商面前都將是可視化的。服務(wù)商的關(guān)注點(diǎn)日也開(kāi)始益聚焦于怎樣利用大數(shù)據(jù)來(lái)精準(zhǔn)營(yíng)銷,進(jìn)而深入挖掘潛在的商業(yè)價(jià)值。于是,“用戶畫像”的概念也就應(yīng)運(yùn)而生。大數(shù)據(jù)使得服務(wù)商能夠通過(guò)互聯(lián)網(wǎng)便利地獲取用戶更為廣泛的反饋信息,為進(jìn)一步精準(zhǔn)、快速地分析用戶行為習(xí)慣、消費(fèi)習(xí)慣等重要商業(yè)信息,提供了足夠的數(shù)據(jù)基礎(chǔ)。伴隨著對(duì)人的了解逐步深入,用戶畫像(UserProfile)的概念應(yīng)運(yùn)而生,其用于通過(guò)用戶標(biāo)簽抽象出用戶的信息全貌,可以看作服務(wù)商應(yīng)用大數(shù)據(jù)的根基。典型的用戶畫像是將用戶信息標(biāo)簽化,就是服務(wù)商通過(guò)收集與分析消費(fèi)者社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個(gè)用戶的商業(yè)全貌,可以看作是服務(wù)商應(yīng)用大數(shù)據(jù)技術(shù)的基本方式。
然而,目前,對(duì)用戶標(biāo)簽的識(shí)別、用戶畫像的建立,主要還是通過(guò)人工干預(yù)和計(jì)算機(jī)簡(jiǎn)單處理轉(zhuǎn)換的方式完成,存在有以下不足:1、耗時(shí)很長(zhǎng);2、人工成本高;3、生成的結(jié)果不夠直觀;4、信息錄入有因人工導(dǎo)致的錯(cuò)誤風(fēng)險(xiǎn)。
另外,過(guò)于依賴后臺(tái)工作人員個(gè)人因素會(huì)導(dǎo)致得到的用戶畫像結(jié)果的差異性很大,而且也沒(méi)有考慮到標(biāo)簽的時(shí)效性,會(huì)導(dǎo)致最終得到的用戶畫像不夠精確。
在現(xiàn)有技術(shù)中,對(duì)用戶行為進(jìn)行分類和預(yù)測(cè)的方法較為單一,參考效果不理想。由于用戶行為包括線上和線下行為,數(shù)據(jù)來(lái)源復(fù)雜,存在這樣的需求:開(kāi)發(fā)能夠針對(duì)不同的數(shù)據(jù)來(lái)源、結(jié)合多種分類預(yù)測(cè)技術(shù)而綜合判定和預(yù)測(cè)用戶屬性、并生成用戶畫像的方案。
發(fā)明內(nèi)容
有鑒于此,如何快速抓取信息并生成直觀易懂的圖表(用戶標(biāo)簽和用戶畫像),供決策者進(jìn)行決策的依據(jù)就成了一個(gè)重要的課題。申請(qǐng)人創(chuàng)造性地將多種數(shù)據(jù)源匯總分析,并按照指定業(yè)務(wù)場(chǎng)景自動(dòng)生成各種圖表,供決策者快速做成決策。
本發(fā)明的主要目的在于提供基于不同信息源自動(dòng)生成各種圖表的方法。該方法可通過(guò)使用Scrapy爬取網(wǎng)站相關(guān)信息、結(jié)合已有的業(yè)務(wù)數(shù)據(jù),通過(guò)Web數(shù)據(jù)挖掘技術(shù)中的PageRank算法以及分類算法對(duì)不用來(lái)源的數(shù)據(jù)進(jìn)行解析、分類,最后使用聚類分析生成描述,調(diào)用Python Charts生成用戶標(biāo)簽,進(jìn)一步抽象、匯總為用戶畫像。
根據(jù)本發(fā)明的實(shí)施例,提供了一種基于不同信息源自動(dòng)生成報(bào)表的方法,包括:
步驟1、從第一信息源獲取用戶的靜態(tài)信息數(shù)據(jù);
步驟2、從第二信息源獲取用戶的動(dòng)態(tài)信息數(shù)據(jù);
步驟3、分析所獲取的靜態(tài)和動(dòng)態(tài)信息數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗,過(guò)濾/格式化后得到生成報(bào)表所需的數(shù)據(jù),包括用戶的多個(gè)標(biāo)簽;
步驟4、根據(jù)在步驟3獲得的數(shù)據(jù)和標(biāo)簽,對(duì)用戶的各個(gè)標(biāo)簽計(jì)算權(quán)重;
步驟5、將步驟4的計(jì)算結(jié)果與步驟3的數(shù)據(jù)結(jié)合,形成包含該用戶各維度的數(shù)據(jù)集合。
根據(jù)本發(fā)明的實(shí)施例,其中,第一信息源是業(yè)務(wù)服務(wù)端的用戶數(shù)據(jù),第二信息源包括從第三方獲取的用戶行為數(shù)據(jù)、線下業(yè)務(wù)數(shù)據(jù)、以及與業(yè)務(wù)服務(wù)端的用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括使用Scrapy從第三方網(wǎng)站抓取的用戶行為數(shù)據(jù)。
根據(jù)本發(fā)明的實(shí)施例,其中,在步驟4中,如下確定所述標(biāo)簽權(quán)重:
標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×網(wǎng)址權(quán)重,
其中,衰減因子由用戶的每個(gè)標(biāo)簽所涉及的用戶行為數(shù)據(jù)的行為時(shí)間確定,行為權(quán)重由用戶的每個(gè)標(biāo)簽所涉及的用戶行為數(shù)據(jù)的行為類別確定,所述網(wǎng)址權(quán)重由用戶的每個(gè)標(biāo)簽所涉及的信息源確定。
根據(jù)本發(fā)明的實(shí)施例,其中,所述步驟3包括:對(duì)靜態(tài)和動(dòng)態(tài)信息數(shù)據(jù)進(jìn)行變量區(qū)間處理,其中,根據(jù)業(yè)務(wù)的規(guī)則為作為變量的行為數(shù)據(jù)劃定區(qū)間,并將劃定的區(qū)間映射為具有業(yè)務(wù)指標(biāo),從而作為后續(xù)的數(shù)值輸入。
根據(jù)本發(fā)明的實(shí)施例,其中,通過(guò)以下步驟,確定所述行為類別:
計(jì)算用戶行為數(shù)據(jù)在預(yù)設(shè)的各個(gè)維度上的屬性;
根據(jù)用戶行為數(shù)據(jù)的來(lái)源、以及與所述來(lái)源相對(duì)應(yīng)的所述屬性,選擇相應(yīng)的分類模型;
根據(jù)所選的分類模型,對(duì)用戶行為數(shù)據(jù)進(jìn)行分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海壹賬通金融科技有限公司,未經(jīng)上海壹賬通金融科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711055134.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 對(duì)信息管理系統(tǒng)訪問(wèn)的數(shù)據(jù)進(jìn)行組織的系統(tǒng)和方法
- 信息源的遠(yuǎn)程注冊(cè)方法和系統(tǒng)
- 組合信息源的組合方法及物聯(lián)網(wǎng)信息源組合訪問(wèn)方法
- 多輪播件的選擇性數(shù)字服務(wù)信息源
- 一種報(bào)文信息源抽取方法及其系統(tǒng)
- 信息交換方法及裝置
- 基于信息源傳播路徑建立關(guān)系網(wǎng)的方法
- 一種基于大數(shù)據(jù)分析的企業(yè)信用評(píng)價(jià)系統(tǒng)
- 一種多機(jī)多源共屏信息溯源方法、系統(tǒng)、智能終端以及存儲(chǔ)介質(zhì)
- 一種遠(yuǎn)動(dòng)信息源的自動(dòng)審核方法及系統(tǒng)





