[發明專利]一種面向物聯網的基于語義聚類的物資信息檢索方法有效
| 申請號: | 201310290805.X | 申請日: | 2013-07-11 |
| 公開(公告)號: | CN103425740A | 公開(公告)日: | 2013-12-04 |
| 發明(設計)人: | 葉寧;趙婷婷;王汝傳;林巧民;王忠勤 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇愛信律師事務所 32241 | 代理人: | 唐小紅 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 聯網 基于 語義 物資 信息 檢索 方法 | ||
1.一種面向物聯網的基于語義聚類的物資信息檢索方法,其特征在于該檢索方法包括語義分析、關鍵詞提取、優先數分配、PML歸一化、層次聚類模塊,具體步驟為:
步驟1)用戶在Web應用平臺上輸入所要檢索物資的相關信息;
步驟2)語義分析的任務就是自動地、批量地對Web頁面進行分析,并自動
提取領域的語義信息,采用先對Web內容進行預處理,去除網頁內的噪音的方法,以提高語義分析提取信息的速度和精度,具體的語義分析過程如下:
步驟21:對Web頁面輸入的文本進行噪音清洗處理,就是去除與網頁主題無關的內容;
步驟22:對經過噪音清洗的Web頁面進行預處理,把相關的內容文本進行短句、詞性劃分;
步驟23:從經過預處理后的文本中識別出重點詞,即文本中基本的信息元素,這些重點詞識別依據是現存的人工參與制定的規則;
步驟24:在整個文本中找出個體事實之間的引用和關聯關系,通過分析同一事實在文本中不同部分的不同描述,合并相同的實體,整合出更大粒度的信息點,即下一步需要的關鍵詞:???????????????????????????????????????????????;
步驟3)為了減少不必要的重復聚類,進一步提高檢索效率,根據現有的詞頻統計資料,經過相互比較,為詞頻最低的關鍵詞分配優先數為1,然后依次確定各個層級的關鍵詞的優先數,假設關鍵詞個數為n,具體過程如下:
步驟31:根據已有資料統計各關鍵詞的詞頻;
步驟32:采用冒泡排序的第一趟算法,兩兩比較相鄰關鍵詞的詞頻,從而
得到詞頻的最小值,對該關鍵詞賦予優先數1;
步驟33:重復步驟32,為剩下的關鍵詞分別分配優先數2,3,…,n;
步驟4)根據得到的優先數,按照優先數由大到小的順序依次將各關鍵詞歸一化為PML格式的文件,作為與電子產品代碼信息服務EPCIS管理下的數據庫進行數據通信的基礎;
步驟5)在數據庫中采用凝聚層次聚類的方式對數據進行聚類,相似度區間劃分為51%--100%、0—50%;最終結果以文件夾和子文件夾的形式展現在用戶檢索的頁面上,文件夾以可變長度的句子命名,具體算法如下:
步驟51:按照上述歸一化的順序,第一個生成的PML描述的關鍵詞作為第一層聚類的特征值,將各原子簇的屬性和關鍵詞進行比較,根據相似度分別將它們合并到同一相似度區間的簇中;
步驟52:將得到結果中的每個簇作為整體放入對應的文件夾中,文件夾以聚類采用的關鍵詞及相似度區間共同命名,即“關鍵詞+相似度區間”,所有文件以并列的形式存在;
步驟53:將第二個生成的PML描述的關鍵詞作為第二層聚類的特征值,將步驟52所得的文件名為“關鍵詞+51%--100%”文件夾中的各數據作為原子簇,重復步驟51中聚類過程;
步驟54:將步驟53所得的結果放入按照步驟52的命名原則得到的相應新文件夾中;
步驟55:按照順序依次對上一步生成的文件進行聚類,每次都是對文件名為“關鍵詞+51%--100%”的文件夾進行新的聚類,直到最后一個關鍵詞聚類完為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310290805.X/1.html,轉載請聲明來源鉆瓜專利網。





