[發明專利]一種基于K-means和Apriori的算法海事大數據關聯分析的方法在審
| 申請號: | 202010429900.3 | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111353051A | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 李志杰;湯小劍;楊燕 | 申請(專利權)人: | 江蘇藍河智能科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06Q50/30 |
| 代理公司: | 北京天盾知識產權代理有限公司 11421 | 代理人: | 張彩珍 |
| 地址: | 226600 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 means apriori 算法 海事 數據 關聯 分析 方法 | ||
本發明公開了一種基于K?means和Apriori的算法海事大數據關聯分析的方法,首先根據不同業務采用k?means聚類算法進行聚類,將數據集劃分出了多個互不相交的“簇”,再在各“簇”內通過Apriori算法實現各類事件關聯規則挖掘,其結果表明使用該方法經過聚類后的同一簇內事件關聯程度明顯優于直接在數據集中使用Apriori算法進行挖掘,為海事大數據關聯分析提供重要依據,構建海事知識圖譜。
技術領域
本發明涉及數據處理技術領域,具體為一種基于K-means和Apriori的算法海事大數據關聯分析的方法。
背景技術
當前海事的決策分析更多的是基于大量數據報表形成統計型分析,需要人工的介入分析統計數據背后的意義,進而發現事情和問題的原因。
這種數據分析更多的還是基于“因果”的思維,但在未來智慧海事發展中會面臨以下瓶頸:
1.無法分析出問題的原因,進而無法解決問題;
2.造成問題的原因很多,導致無法有效的解決問題;
3.數據統計不客觀、不全面、虛假數據等因素,造成“數據說謊”的情況;
4.數據因果分析效率較低,難以實現實時的決策。
根據國家海事部門編制的《海事信息系統頂層設計》及智慧海事戰略規劃要求,海事信息化發展取得了可觀的成果,海事云數據中心建設取得突破性進展,基本實現了全國海事系統基礎數據的匯集與篩選,為海事大數據應用夯實了基礎。未來,基于數據的“事實”將會成為決策的重要依據。
發明內容
本發明的目的在于提供一種基于K-means和Apriori的算法海事大數據關聯分析的方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于K-means和Apriori的算法海事大數據關聯分析的方法,包括以下步驟:
A、建立海事數據資源庫,提取并形成海事基礎信息屬性:海事業務大多圍繞人、船、環境等要素,根據海事業務的特點,建立標準的海事數據資源庫,并從業務屬性方面進行分析,以便全面挖掘數據特征;
B、進行屬性歸類,實現利用k-means聚類算法實現聚類:根據相似性原則,將具有較高相似度的數據對象劃分至同一類簇,將具有較高相異度的數據對象劃分至不同類簇;根據k值的設定,將數據按屬性距離分為若干不相交的簇;同一個“簇”內的數據對象具有一定的相似程度,而不同“簇”間的數據對象相似程度使之降低;
C、利用Apriori算法實現海事數據關聯分析;
D、建立海事知識圖譜。
優選的,所述步驟C中分析方法具體如下:
a、根據情況,設定合適的最小支持度minsupport和最小置信度minconfidence;
b、首先產生候選的項集合,即候選項集,若選取的候選項集的當前支持度大于或等于設定的最小支持度,則該候選項集為頻繁項集;
c、在Apriori算法的過程中,首先從數據庫讀入所有的事務,每個項都被看作候選1項集,得出各項的支持度,再使用頻繁1項集集合來產生候選2項集集合;
d、再掃描數據庫,得出候選2項集集合,再找出頻繁2項集,并利用這些頻繁2項集集合來產生候選3項集;
e、重復掃描數據庫,與最小支持度比較,產生更高層次的頻繁項集,再從該集合里產生下一級候選項集,直到不再產生新的候選項集為止,此算法中要不斷重復兩個步驟:連接和剪枝。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇藍河智能科技有限公司,未經江蘇藍河智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010429900.3/2.html,轉載請聲明來源鉆瓜專利網。





