[發明專利]一種基于輿情平臺的抽樣分布式聚類方法在審
| 申請號: | 201611260883.5 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106874367A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 汪偉亞;許愷;黃強松;陳輝 | 申請(專利權)人: | 江蘇號百信息服務有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210006 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輿情 平臺 抽樣 分布式 方法 | ||
1.一種基于輿情平臺的抽樣分布式聚類方法,其特征在于:包括如下步驟:
一、獲取待聚類數據,并對所述待聚類數據進行分片處理,得到多個分片;
二、利用MapReduce中的Map函數對每一所述分片進行數據抽樣;
三、將得到的抽樣數據匯總,并在MapReduce框架的Reduce過程中對匯總的所述抽樣數據進行聚類;
四、依次重復步驟二和步驟三合計進行r輪數據抽樣,將每一輪的抽樣數據的聚類結果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數,πi為第i輪的基聚類,1≤i≤r,且為正整數;
五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結果。
2.根據權利要求1所述的基于輿情平臺的抽樣分布式聚類方法,其特征在于:在步驟一中,對所述待聚類數據進行水平分割,并在分割過程中保證每條數據的完整性,且將分割得到的所述分片存儲在分布式文件系統中。
3.根據權利要求1所述的基于輿情平臺的抽樣分布式聚類方法,其特征在于:所述步驟二中進行數據抽樣至少滿足的要求包括:抽樣技術本身足夠簡單、抽樣基于局部數據進行和抽樣結果具有一定的隨機性。
4.根據權利要求1所述的基于輿情平臺的抽樣分布式聚類方法,其特征在于:在步驟三中,將具體的數據抽樣輪次作為key,得到的抽樣數據作為value,通過shuffle函數匯聚到MapReduce的一個Reduce函數中,在所述Reduce函數中對抽樣數據進行聚類。
5.根據權利要求1所述的基于輿情平臺的抽樣分布式聚類方法,其特征在于:在步驟五中包括如下步驟:
隨機選擇一定數量的所述基聚類作為質心,并用Map函數計算其他所述基聚類與所述質心間的距離,每一所述基聚類被指派到與其距離最近的所述質心所在的類簇中,并在Reduce函數中更新類簇的質心;
重復這一過程直到所述類簇的質心不再改變。
6.根據權利要求5所述的基于輿情平臺的抽樣分布式聚類方法,其特征在于:設定zk表示基聚類向量Π中第k個類簇的質心,描述為rk維向量:
其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇號百信息服務有限公司,未經江蘇號百信息服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260883.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:建筑物水泥平臺樓頂裂縫補漏方法
- 下一篇:一種高效無機真空絕熱板





