[發(fā)明專利]基于k-means算法的信息歸類方法及相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202010183100.8 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111400597A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計)人: | 高越 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951;G06K9/62 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 means 算法 信息 歸類 方法 相關(guān) 設(shè)備 | ||
1.一種基于k-means算法的信息歸類方法,其特征在于,所述基于k-means算法的信息歸類方法包括:
獲取原始信息,對所述原始信息進行過濾得到客戶信息集;
提取所述客戶信息集中與其它數(shù)據(jù)不成正態(tài)分布的數(shù)據(jù)作為不規(guī)則數(shù)據(jù),計算所述不規(guī)則數(shù)據(jù)與所述客戶信息集中其它各規(guī)則數(shù)據(jù)之間的聚合度數(shù)值;
根據(jù)所述聚合度數(shù)值與預(yù)設(shè)的聚合度閾值進行比較結(jié)果對所述客戶信息集中的樣本數(shù)據(jù)進行數(shù)據(jù)篩選;
隨機抽取數(shù)據(jù)篩選后的客戶信息集中的若干樣本數(shù)據(jù)作為質(zhì)心,計算所述預(yù)處理后的客戶信息集中的剩余樣本數(shù)據(jù)與所述各質(zhì)心之間的距離;
獲取所述距離中最小距離對應(yīng)的質(zhì)心A與樣本數(shù)據(jù)A,并將所述樣本數(shù)據(jù)A與所述質(zhì)心A歸為一類,以此類推直至所述預(yù)處理后的客戶信息集中的所有數(shù)據(jù)完成歸類,得到歸類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于k-means算法的信息歸類方法,其特征在于,所述獲取原始信息,對所述原始信息進行過濾得到客戶信息集包括:
從網(wǎng)絡(luò)中抓取網(wǎng)頁,根據(jù)預(yù)置篩選規(guī)則從所述網(wǎng)頁中抽取出若干原始信息;
加載客戶信息的元素規(guī)則,判斷所述各原始信息中的元素是否符合所述元素規(guī)則;
將符合所述元素規(guī)則的原始信息標(biāo)記為備選信息,否則不標(biāo)記;
匯集所有所述備選信息,得到所述客戶信息集。
3.根據(jù)權(quán)利要求2述的基于k-means算法的信息歸類方法,其特征在于,所述根據(jù)預(yù)置篩選規(guī)則從所述網(wǎng)頁中抽取出若干原始信息包括:
根據(jù)所述網(wǎng)頁的網(wǎng)頁結(jié)構(gòu),將所述網(wǎng)頁中的內(nèi)容劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
從所述結(jié)構(gòu)化數(shù)據(jù)中提取出所有預(yù)置客戶名對應(yīng)的行;
根據(jù)預(yù)設(shè)分段閾值將所述非結(jié)構(gòu)化數(shù)據(jù)劃分為多個子段,提取所有包含所述預(yù)置客戶名的子段;
匯總所述各預(yù)置客戶名對應(yīng)的行和所述各包含所述預(yù)置客戶名的子段,得到所述原始信息。
4.根據(jù)權(quán)利要求2或3所述的基于k-means算法的信息歸類方法,其特征在于,在所述提取所述客戶信息集中與其它數(shù)據(jù)不成正態(tài)分布的數(shù)據(jù)作為不規(guī)則數(shù)據(jù),計算所述不規(guī)則數(shù)據(jù)與所述客戶信息集中其它各規(guī)則數(shù)據(jù)之間的聚合度數(shù)值之前,還包括:
將所述客戶信息集中的客戶信息按照元素類別進行分類,并將分類后的客戶信息按照所述元素類別的屬性分別建立對應(yīng)的信息分布坐標(biāo)圖;
根據(jù)所述信息分布坐標(biāo)圖中各點之間的距離,確定不規(guī)則點;
將所述不規(guī)則點對應(yīng)的客戶信息作為所述不規(guī)則數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的基于k-means算法的信息歸類方法,其特征在于,所述根據(jù)所述聚合度數(shù)值與預(yù)設(shè)的聚合度閾值進行比較結(jié)果對所述客戶信息集中的樣本數(shù)據(jù)進行數(shù)據(jù)篩選包括:
以任一所述規(guī)則數(shù)據(jù)在歸類坐標(biāo)系上的位置為圓心,并以對應(yīng)的預(yù)置類別參數(shù)的取值為半徑畫圓A,計算所述不規(guī)則數(shù)據(jù)到所述圓心的距離,以所述距離作為聚合度數(shù)值;
若所述聚合度數(shù)值大于預(yù)設(shè)聚合度閾值,則確定所述不規(guī)則數(shù)據(jù)為高聚合數(shù)據(jù),否則確定所述不規(guī)則數(shù)據(jù)為低聚合數(shù)據(jù);
以所述高聚合數(shù)據(jù)在所述歸類坐標(biāo)系上的位置為圓心,以所述類別參數(shù)為半徑畫圓B,判斷所述低聚合數(shù)據(jù)是否在所述圓B內(nèi);
若所述低聚合數(shù)據(jù)在所述圓B內(nèi),則將所述低聚合數(shù)據(jù)和所述高聚合數(shù)據(jù)打包成一個樣本數(shù)據(jù),否則舍棄所述低聚合數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的基于k-means算法的信息歸類方法,其特征在于,在所述獲取所述距離中最小距離對應(yīng)的質(zhì)心A與樣本數(shù)據(jù)A,并將所述樣本數(shù)據(jù)A與所述質(zhì)心A歸為一類,以此類推直至所述預(yù)處理后的客戶信息集中的所有數(shù)據(jù)完成歸類,得到歸類結(jié)果之后,還包括:
獲取所述歸類結(jié)果對應(yīng)的預(yù)置聯(lián)系策略,并基于所述聯(lián)系策略聯(lián)系對應(yīng)的客戶端;
根據(jù)所述客戶端的反饋信息,判斷所述原始信息對應(yīng)的客戶是否已經(jīng)聯(lián)系成功;
若聯(lián)系失敗,則根據(jù)預(yù)置異常數(shù)據(jù)規(guī)則判斷原始信息中是否含有異常數(shù)據(jù);
若含有所述異常數(shù)據(jù),則將所述異常數(shù)據(jù)去除后進行重新分類,否則標(biāo)記為疑難客戶,以供等待人工處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010183100.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





