[發明專利]一種非結構化大數據流的內容語義挖掘方法有效
| 申請號: | 201610041935.3 | 申請日: | 2016-01-21 |
| 公開(公告)號: | CN105740329B | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 張少中 | 申請(專利權)人: | 浙江萬里學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 寧波市鄞州甬致專利代理事務所(普通合伙) 33228 | 代理人: | 代忠炯 |
| 地址: | 315100 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結構 數據流 內容 語義 挖掘 方法 | ||
1.一種非結構化大數據流的內容語義挖掘方法,其特征在于,包括以下步驟:
步驟S1:提供一大數據流,提取所述大數據流中的文本鏈接、標簽屬性和語義傾向關鍵詞,定義各所述文本鏈接為文本結點,各所述標簽屬性為標記結點,各所述語義傾向關鍵詞為內容結點;
步驟S2:構建包含各所述文本結點的文本結點集合,以及包含各所述標記結點的標記結點集合,計算并輸出所述文本結點到所述標記結點之間的權值、以及任意所述標記結點到其他所有標記結點之間的權值;
步驟S3:根據所述文本結點集合、標記結點集合、文本結點到標記結點之間的權值、任意標記結點到其他所有標記結點之間的權值,對各所述內容結點進行語義分類并構建不同的內容結點分類集合;
步驟S4:根據所述文本結點集合、內容結點分類集合,對文本結點進行加權的小世界網絡聚類計算,獲得文本結點聚類集合。
2.根據權利要求1所述的一種非結構化大數據流的內容語義挖掘方法,其特征在于,所述步驟S2包括以下步驟:
步驟S20:構建包含各所述文本結點的文本結點集合,以及包含各所述標記結點的標記結點集合;
步驟S21:標記各個所述文本結點、標記結點的特征值的頻率;
步驟S22:計算并輸出各所述文本結點到所有標記結點的頻率;
步驟S23:計算并輸出任意所述標記結點到其他所有標記結點之間的特征值頻率。
3.根據權利要求1所述的一種非結構化大數據流的內容語義挖掘方法,其特征在于,所述步驟S3包括以下步驟:
步驟S30:遍歷所有從各起始文本結點到各所述標記結點的路徑;
步驟S31:比較各所述路徑的長度并找出長度最短的路徑,其中,所述長度最短的路徑為權值最大的路徑;
步驟S32:繼續比較剩下的各所述路徑的長度并進行排列;
步驟S33:將剩下的各文本結點依次進行步驟S30至步驟S32的操作,確定出各所述文本結點到所有標記結點的路徑排列序列;
步驟S34:設定一個路徑長度閾值,判定小于等于所述路徑長度閾值的路徑內的文本結點符合要求;
步驟S35:針對符合要求的文本結點,計算相應標記結點的屬性并對各所述內容結點進行語義分類,構建不同的內容結點分類集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江萬里學院,未經浙江萬里學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610041935.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可視化的廣告管理平臺和實現方法
- 下一篇:醫用B超耦合劑加熱器的固定裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





