[發明專利]一種基于SOINN網絡的在線物聯網設備識別方法在審
| 申請號: | 202110781214.7 | 申請日: | 2021-07-10 |
| 公開(公告)號: | CN113657443A | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 黃杰;張帥帥 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G16Y30/00 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 soinn 網絡 在線 聯網 設備 識別 方法 | ||
1.一種基于SOINN網絡的在線物聯網設備識別方法,其特征在于,包括以下步驟:
(1)結構化特征提取,
(2)非結構化特征提取,
(3)設備品牌識別,
(4)設備型號識別。
2.根據權利要求1所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于,步驟(1)結構化特征提取:具體如下,
1.1從數據庫中獲取設備的交互頁面代碼;
1.2設置結構化特征F的初始值,長度為256,每一位為0,依次順序遍歷HTML代碼的每一層,提取每層包含的HTML節點標簽,記為:t1,t2,…tn;
1.3對每一層標簽進行如下處理:
1.3.1利用該層標簽產生所有三元組全排列組合,記為C1,C2,…,Cm;
1.3.2利用md5哈希算法計算每個Ci的哈希值,并求該哈希值除以256的余數,記為h。
1.3.3在結構化特征F的第h位累加1;
1.4順序遍歷完HTML的所有層,重復步驟1.3,得到結構化特征F;
1.5累加特征F所有位的數值,并除以256得到平均值avg;
1.6對特征F二值化,每一位按照以下公式進行賦值,得到最終的設備結構化特征。
其中F[i]是結構化特征F的第i位。
3.根據權利要求1所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于,
步驟(2)非結構化特征提取,具體如下,
2.1從數據庫讀取相同品牌設備的所有文本數據;
2.2利用正則表達式從每一個文本中匹配型號關鍵詞;
2.3利用TF-IDF技術計算每一個關鍵詞對于該文本的權重值;
2.4關鍵詞及其權重值構成每種型號設備的非結構化特征。
4.根據權利要求1所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于,(3)設備品牌識別,具體如下,
3.1為結構化特征打上分類標簽,作為設備品牌分類器的訓練數據;
3.2將所有訓練數據按照品牌類別分別輸入SOINN網絡,進行訓練數據壓縮得到原型數據;
3.3利用原型數據訓練SVM分類器;
3.4待識別設備經過SVM分類器識別設備的品牌;
3.5識別后的設備數據按照品牌類別輸入到SOINN網絡中,重復步驟3.2,3.3,更新分類模型。
5.根據權利要求1所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于,(4)設備型號識別,具體如下,
4.1利用正則匹配提取待識別設備文本數據中的型號關鍵詞,得到詞集合S;
4.2加載型號特征庫,包含了詞集合W和權重值集合M,按照下方公式計算待識別設備與型號特征庫中每一個型號的文本相似度;
其中|Wb,p|為品牌b型號p的詞集合元素數量,Mb,p,i為詞集合中第i個詞的TF-IDF權重值,Wb,p,i為詞集合中的第i個詞,Sj為待識別設備詞集合中第j個詞,d(Wb,p,i,Sj)為兩個詞語的Jaro距離。
4.3按照下方公式將所有的文本相似度結果歸一化,得到最終的文本相似度;
4.4從歸一化的相似度結果中挑選出最大值,對應的特征庫型號值就是型號識別結果。
6.根據權利要求2所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于:在步驟1.2到1.4之間利用HTML標簽全排列組合的哈希值生成設備結構化特征。
7.根據權利要求3所述的基于SOINN網絡的在線物聯網設備識別方法,其特征在于:在步驟2.4中將關鍵詞及其TF-IDF權重值作為設備非結構化特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110781214.7/1.html,轉載請聲明來源鉆瓜專利網。





