[發(fā)明專利]一種非結(jié)構(gòu)化大數(shù)據(jù)流的內(nèi)容語義挖掘方法有效
| 申請?zhí)枺?/td> | 201610041935.3 | 申請日: | 2016-01-21 |
| 公開(公告)號: | CN105740329B | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計)人: | 張少中 | 申請(專利權(quán))人: | 浙江萬里學(xué)院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 寧波市鄞州甬致專利代理事務(wù)所(普通合伙) 33228 | 代理人: | 代忠炯 |
| 地址: | 315100 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)構(gòu) 數(shù)據(jù)流 內(nèi)容 語義 挖掘 方法 | ||
本發(fā)明公開了一種非結(jié)構(gòu)化大數(shù)據(jù)流的內(nèi)容語義挖掘方法,包括S1:提取大數(shù)據(jù)流中的文本鏈接、標(biāo)簽屬性和語義傾向關(guān)鍵詞,并對應(yīng)定義文本結(jié)點、標(biāo)記結(jié)點、內(nèi)容結(jié)點;S2:構(gòu)建包含各文本結(jié)點的文本結(jié)點集合,包含各標(biāo)記結(jié)點的標(biāo)記結(jié)點集合,計算并輸出文本結(jié)點到標(biāo)記結(jié)點之間的權(quán)值、以及任意標(biāo)記結(jié)點到其他所有標(biāo)記結(jié)點之間的權(quán)值;S3:根據(jù)文本結(jié)點集合、標(biāo)記結(jié)點集合、文本結(jié)點到標(biāo)記結(jié)點之間的權(quán)值、任意標(biāo)記結(jié)點到其他所有標(biāo)記結(jié)點之間的權(quán)值,對各內(nèi)容結(jié)點進(jìn)行語義分類并構(gòu)建不同的內(nèi)容結(jié)點分類集合;S4:根據(jù)文本結(jié)點集合、內(nèi)容結(jié)點分類集合,對文本結(jié)點進(jìn)行加權(quán)的小世界網(wǎng)絡(luò)聚類計算,獲得文本結(jié)點聚類集合。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及一種非結(jié)構(gòu)化大數(shù)據(jù)流的內(nèi)容語義挖掘方法。
背景技術(shù)
隨著WEB2.0技術(shù)的飛速發(fā)展和應(yīng)用,博客、微博、微信等形式的網(wǎng)絡(luò)信息交互成為重要的信息交流方式,這些交流方式產(chǎn)生的數(shù)據(jù)信息中包括了結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中多以非結(jié)構(gòu)化數(shù)據(jù)為主。這些數(shù)據(jù)經(jīng)過眾多人的傳播、更新,日積月累成為了一種結(jié)構(gòu)復(fù)雜、內(nèi)容多樣的異質(zhì)、異構(gòu)、海量的大數(shù)據(jù)集合。這種大數(shù)據(jù)中包含了各種各樣的信息,如用戶對某種事物、事件、商品或者服務(wù)的評價、態(tài)度、行為等內(nèi)容,如何把這些有價值的內(nèi)容從龐大的大數(shù)據(jù)中抽取出來,以便為企業(yè)、機(jī)構(gòu)和個人用戶提供有價值的服務(wù)是非常重要的。
以微博大數(shù)據(jù)流為例,微博大數(shù)據(jù)流以實時在線的各類微博數(shù)據(jù)為核心,以非結(jié)構(gòu)化數(shù)據(jù)為主要形式,對此類大數(shù)據(jù)流進(jìn)行挖掘的重點是核心內(nèi)容的抽取、分類及聚類等。此外,由于類似微博中產(chǎn)生的數(shù)據(jù)往往帶有作者和評論者的意圖和傾向,具有強(qiáng)烈的語義和情感特征,也即作者或者評論者針對微博中某些內(nèi)容表現(xiàn)出的某種態(tài)度和傾向,如何將這些內(nèi)容的語義和其中包含的情感傾向抽取,并與內(nèi)容挖掘結(jié)合起來,是非結(jié)構(gòu)化微博大數(shù)據(jù)流的內(nèi)容挖掘的重點。
現(xiàn)有的數(shù)據(jù)流處理和挖掘方法,包括針對傳統(tǒng)數(shù)據(jù)集類型的頻繁模式挖掘,以及針對大數(shù)據(jù)集下的頻繁模式挖掘、髙效用模式挖掘、滑動窗口控制技術(shù)等。但是這些挖掘方法一方面只能針對結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)處理,難以處理微博、博客等類型的非結(jié)構(gòu)化數(shù)據(jù);另一方面此類挖掘方法沒有考慮數(shù)據(jù)內(nèi)容的語義和情感傾向性問題,難以正確把握到數(shù)據(jù)內(nèi)容的核心點。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是,提供一種可針對非結(jié)構(gòu)化大數(shù)據(jù)流進(jìn)行內(nèi)容語義挖掘,進(jìn)行內(nèi)容語義聚類分析,能夠及時掌握大數(shù)據(jù)流內(nèi)容中語義和情感傾向性的方法。
本發(fā)明的技術(shù)方案是,提供一種非結(jié)構(gòu)化大數(shù)據(jù)流的內(nèi)容語義挖掘方法,包括以下步驟:
步驟S1:提供一大數(shù)據(jù)流,提取所述大數(shù)據(jù)流中的文本鏈接、標(biāo)簽屬性和語義傾向關(guān)鍵詞,定義各所述文本鏈接為文本結(jié)點,各所述標(biāo)簽屬性為標(biāo)記結(jié)點,各所述語義傾向關(guān)鍵詞為內(nèi)容結(jié)點;
步驟S2:構(gòu)建包含各所述文本結(jié)點的文本結(jié)點集合,以及包含各所述標(biāo)記結(jié)點的標(biāo)記結(jié)點集合,計算并輸出所述文本結(jié)點到所述標(biāo)記結(jié)點之間的權(quán)值、以及任意所述標(biāo)記結(jié)點到其他所有標(biāo)記結(jié)點之間的權(quán)值;
步驟S3:根據(jù)所述文本結(jié)點集合、標(biāo)記結(jié)點集合、文本結(jié)點到標(biāo)記結(jié)點之間的權(quán)值、任意標(biāo)記結(jié)點到其他所有標(biāo)記結(jié)點之間的權(quán)值,對各所述內(nèi)容結(jié)點進(jìn)行語義分類并構(gòu)建不同的內(nèi)容結(jié)點分類集合;
步驟S4:根據(jù)所述文本結(jié)點集合、內(nèi)容結(jié)點分類集合,對文本結(jié)點進(jìn)行加權(quán)的小世界網(wǎng)絡(luò)聚類計算,獲得文本結(jié)點聚類集合。
進(jìn)一步地,所述步驟S2包括以下步驟:
步驟S20:構(gòu)建包含各所述文本結(jié)點的文本結(jié)點集合,以及包含各所述標(biāo)記結(jié)點的標(biāo)記結(jié)點集合;
步驟S21:標(biāo)記各個所述文本結(jié)點、標(biāo)記結(jié)點的特征值的頻率;
步驟S22:計算并輸出各所述文本結(jié)點到所有標(biāo)記結(jié)點的頻率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江萬里學(xué)院,未經(jīng)浙江萬里學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610041935.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關(guān)設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





