[發明專利]一種數據聚類方法及裝置在審
| 申請號: | 201611027693.9 | 申請日: | 2016-11-17 |
| 公開(公告)號: | CN108073939A | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 鮑媛媛 | 申請(專利權)人: | 中國移動通信有限公司研究院;中國移動通信集團公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 朱琳愛義 |
| 地址: | 100053 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 聚類中心 數據概念 數據聚類 最短距離 抽取 自動化 傳感器數據 形狀數據 異構設備 互操作 準確率 互補性 協同 分析 保證 | ||
本發明公開了一種數據聚類方法及裝置,采用局部密度的聚類方法,通過對各節點之間的距離,各節點的局部密度,以及與具有更高局部密度的節點的最短距離的確定,為實現傳感器數據的聚類奠定了基礎;再根據確定出的各節點的局部密度,以及各節點與具有更高局部密度的節點之間的最短距離,確定各聚類中心節點以及除各聚類中心節點之外的各節點的所屬類別,實現了節點的自動化聚類,完成了數據概念的自動化抽取,不僅突破了傳統k均值聚類方法的缺陷,還實現對任意形狀數據的聚類,而且為實現異構設備的協同分析,設備的互操作等奠定了基礎,保證了信息的可靠性和信息的互補性,提高了數據概念抽取的準確率。
技術領域
本發明涉及數據挖掘技術領域,尤指涉及一種數據聚類方法及裝置。
背景技術
隨著物聯網的快速發展,物聯網智能設備類型日益繁多,越來越多的設備產生了海量的、異構的感知數據,這些感知數據給系統內和系統間的資源交互、數據關聯和推理等都帶來了極大的挑戰,如何屏蔽感知數據的異構性、孤立性,實現數據互聯和融合成為物聯網領域研究的熱點問題。
因此,語義技術被引入到物聯網中,而本體作為一種能夠在語義和知識層面上描述概念的建模工具具有概念化的特性,被認為是信息語義表示的核心和關鍵所在;為了描述本體中實例的分類,通常需要概念挖掘,通過人工定義或機器學習來獲取領域概念,并建立領域概念之間的關系,這就使得本體領域概念的構建及其層次關系的生成在本體構建過程中顯得尤為重要。
目前,現有的領域概念的抽取方法有:基于規則的方法、基于統計的方法以及規則和統計相結合的方法。其中,基于規則的方法是通過人為對領域概念的識別,抽象出規則或模板,查找出文本中匹配規則或符合模板的領域概念,通常這種方法依賴于自然語言處理工具,通過分詞結果、詞性等文本特性構造規則,這種方法受不同語言、不同領域的影響,對新的環境要構造新的規則,工作較為繁瑣,缺乏通用性;基于統計的方法是利用機器學習技術,尋找語料中的特征,對語料進行標注和訓練,獲得領域概念抽取模型,通常采用的方法有隱馬爾可夫模型、決策樹、神經網絡等,雖然該方法不受語言與領域的影響,但卻需要在標注訓練集前人工干預領域概念集合,需要觀察所有的文檔,否則會導致候選領域概念詞集的缺失,進而影響歸類的結果;規則與統計相結合的方法是采用語言學和數學統計方法共同來獲取領域概念,其中規則方法側重于獲取待選領域概念,而統計方法則用于提高領域概念抽取的準確率和效率,目前大多數的領域概念均采用這種結合方法。
然而,雖然規則與統計相結合的方法克服了基于規則的方法和基于統計的方法的缺陷,但目前的研究對象均是針對文本信息的領域概念抽取,卻不適用于傳感器的數據概念抽取;其次,現有的方法需要語料庫、開放文本集合或者規則庫作為訓練樣本,對于前期訓練集數據準備提出了較高的要求,然而很多情況下滿足要求的訓練集數據是不易獲取的,會嚴重影響抽取的準確率;再次,對于領域概念的抽取大多采用傳統的k均值聚類方法,此方法容易受到初始聚類中心和聚類中心數量的限制,不能實現對任意形狀數據的聚類,同樣也會影響抽取的準確率。
基于此,如何建立一種基于傳感器數據的聚類方法,實現對傳感器數據的自動化聚類,完成數據概念的抽取,是本領域技術人員亟待解決的技術問題。
發明內容
本發明實施例提供了一種數據聚類方法及裝置,用以解決如何建立一種基于傳感器數據的聚類方法,實現對傳感器數據的自動化聚類,完成數據概念的抽取。
本發明實施例提供了一種數據聚類方法,包括:
根據多個傳感器采集到的時間序列生成多維字符串序列;
根據所述多維字符串序列中的各字符串序列,以及各所述傳感器采集時間序列時的時間和地點,構建所述字符串序列、所述時間和所述地點的三元組;
將每個所述三元組作為一個節點,分別確定各所述節點之間的距離函數;
分別確定各所述節點的局部密度,以及各所述節點與具有更高局部密度的節點之間的最短距離;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信有限公司研究院;中國移動通信集團公司,未經中國移動通信有限公司研究院;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611027693.9/2.html,轉載請聲明來源鉆瓜專利網。





