[發明專利]一種基于輿情平臺的抽樣分布式聚類方法在審
| 申請號: | 201611260883.5 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106874367A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 汪偉亞;許愷;黃強松;陳輝 | 申請(專利權)人: | 江蘇號百信息服務有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210006 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輿情 平臺 抽樣 分布式 方法 | ||
技術領域
本發明屬于數據挖掘和機器學習領域,具體地涉及一種基于輿情平臺的抽樣分布式聚類方法。
背景技術
數據聚類問題,是通過數據樣本點之間的相似性來對之進行操作,讓相似度高的數據樣本點在同一類簇中,而相似度較低的樣本點彼此遠離。聚類一直以來都是數據挖掘和機器學習中的重要方法之一,但隨著互聯網的發展特別是Web2.0帶來的用戶原創內容的爆發式增長,數據量已成為傳統聚類方法的瓶頸,尤其是新聞推薦、機器翻譯、文獻檢索、情報分析、輿情監控等應用領域的文本數據,具有高維稀疏的特性。如何提高聚類算法特別是高維稀疏數據的聚類方法的效率,已成為互聯網大數據數據挖掘亟待解決的重要問題。
因此,有必要提供一種可以提高高維稀疏數據的聚類方法的效率的基于輿情平臺的抽樣分布式聚類方法。
發明內容
本發明的目的在于提供一種可以提高高維稀疏數據的聚類方法的效率的基于輿情平臺的抽樣分布式聚類方法。
本發明的技術方案如下:一種基于輿情平臺的抽樣分布式聚類方法包括如下步驟:一、獲取待聚類數據,并對所述待聚類數據進行分片處理,得到多個分片;二、利用MapReduce中的Map函數對每一所述分片進行數據抽樣;三、將得到的抽樣數據匯總,并在MapReduce框架的Reduce過程中對匯總的所述抽樣數據進行聚類;四、依次重復步驟二和步驟三合計進行r輪數據抽樣,將每一輪的抽樣數據的聚類結果記作基聚類,并得到Π={π1,π2,…,πr}的向量,其中,r為大于等于2的正整數,πi為第i輪的基聚類,1≤i≤r,且為正整數;五、再次使用MapReduce框架將所述基聚類集成為最終的聚類結果。
優選地,在步驟一中,對所述待聚類數據進行水平分割,并在分割過程中保證每條數據的完整性,且將分割得到的所述分片存儲在分布式文件系統中。
優選地,所述步驟二中進行數據抽樣至少滿足的要求包括:抽樣技術本身足夠簡單、抽樣基于局部數據進行和抽樣結果具有一定的隨機性。
優選地,在步驟三中,將具體的數據抽樣輪次作為key,得到的抽樣數據作為value,通過shuffle函數匯聚到MapReduce的一個Reduce函數中,在所述Reduce函數中對抽樣數據進行聚類。
優選地,在步驟五中包括如下步驟:隨機選擇一定數量的所述基聚類作為質心,并用Map函數計算其他所述基聚類與所述質心間的距離,每一所述基聚類被指派到與其距離最近的所述質心所在的類簇中,并在Reduce函數中更新類簇的質心;重復這一過程直到所述類簇的質心不再改變。
優選地,設定zk表示基聚類向量Π中第k個類簇的質心,描述為rk維向量:
其中,
優選地,設定向量Π描述為一個rk維的向量xl,則xl與zk之間的余弦距離為:
其中wi表示第i個基聚類的權重,當不存在先驗知識時取值為1/r。
優選地,質心zk利用如下公式進行更新:
其中是關于Π的常數向量,
表示第i個基聚類的第k個簇中實例的數量;
對于和而言,如果給定一個d維實向量y,||y||p表示y的Lp范數,即
本發明提供的技術方案具有如下有益效果:
所述基于輿情平臺的抽樣分布式聚類方法利用抽樣技術縮減數據規模,通過多輪抽樣提高基聚類結果的多樣性,然后定義余弦距離將基聚類結果集成為最終的聚類結果,因此能夠有效提高海量數據的聚類效率問題;
并且,通過引入抽樣技術,縮減數據規模的同時提高數據多樣性,然后利用分布式計算框架設計兩階段的聚類過程,為提高互聯網大數據中輿情項目分析的聚類質量和效率提供了有效方法。
附圖說明
圖1是本發明實施例提供的基于輿情平臺的抽樣分布式聚類方法的流程框圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇號百信息服務有限公司,未經江蘇號百信息服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260883.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:建筑物水泥平臺樓頂裂縫補漏方法
- 下一篇:一種高效無機真空絕熱板





