[發(fā)明專(zhuān)利]一種微博用戶畫(huà)像方法、電子設(shè)備、存儲(chǔ)介質(zhì)、系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201710807779.1 | 申請(qǐng)日: | 2017-09-08 |
| 公開(kāi)(公告)號(hào): | CN107633036A | 公開(kāi)(公告)日: | 2018-01-26 |
| 發(fā)明(設(shè)計(jì))人: | 蔡毅 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣州汪汪信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06Q50/00;G06K9/62 |
| 代理公司: | 廣州市越秀區(qū)哲力專(zhuān)利商標(biāo)事務(wù)所(普通合伙)44288 | 代理人: | 李天星,彭成 |
| 地址: | 510000 廣東省廣州市天*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用戶 畫(huà)像 方法 電子設(shè)備 存儲(chǔ) 介質(zhì) 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理分析領(lǐng)域,尤其涉及一種微博用戶畫(huà)像方法電子設(shè)備、存儲(chǔ)介質(zhì)、系統(tǒng)。
背景技術(shù)
微博平臺(tái)是人們記錄日常生活,表達(dá)情感和觀點(diǎn)的重要平臺(tái),基于情感分類(lèi)技術(shù)對(duì)微博用戶進(jìn)行用戶畫(huà)像具有很大的意義,例如分析用戶對(duì)一種商品的情感,可以輔助該商品營(yíng)銷(xiāo)方案的制定。情感分類(lèi)問(wèn)題本質(zhì)上是一個(gè)分類(lèi)問(wèn)題,通過(guò)標(biāo)記好的訓(xùn)練數(shù)據(jù)訓(xùn)練分類(lèi)器,得到評(píng)估模型。情感分類(lèi)問(wèn)題本質(zhì)上是一個(gè)分類(lèi)問(wèn)題,但傳統(tǒng)的文本分類(lèi)問(wèn)題是根據(jù)文本的話題進(jìn)行分類(lèi),例如判斷一篇文檔是關(guān)于政治的還是關(guān)于體育的,而文本情感分類(lèi)是對(duì)文本表達(dá)的情感進(jìn)行極性的判斷,例如判斷一條電影評(píng)論表達(dá)的觀點(diǎn)是積極的還是消極的。相對(duì)于傳統(tǒng)的基于主題的分類(lèi),情感分類(lèi)更具挑戰(zhàn)性的一個(gè)方面表現(xiàn)在主題可以單獨(dú)根據(jù)關(guān)鍵詞來(lái)進(jìn)行判別,例如,例如一篇文檔出現(xiàn)了“足球”、“進(jìn)球”等詞語(yǔ),則有很大的可能是屬于體育類(lèi)的。而情感的表達(dá)方式更微妙,例如,“這場(chǎng)電影大家怎么能夠堅(jiān)持坐著看完的?”這個(gè)句子沒(méi)有包含一個(gè)明顯具有消極情感傾向的詞語(yǔ),但整個(gè)句子表達(dá)的是情感傾向是消極的。可見(jiàn),情感分類(lèi)對(duì)于通常的基于話題的分類(lèi)需要更深層次的理解。微博文本與普通文本具有很多的區(qū)別,例如微博數(shù)據(jù)集主題不統(tǒng)一、微博用語(yǔ)不規(guī)范、微博文本形式復(fù)雜,噪音多。目前的對(duì)于微博的情感分類(lèi)只是簡(jiǎn)單的基于話題的分類(lèi),因此目前得到的用戶畫(huà)像不夠準(zhǔn)確,具有很大偏差。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的之一在于提供一種微博用戶畫(huà)像方法,其能解決目前得到的用戶畫(huà)像不夠準(zhǔn)確,具有很大偏差的問(wèn)題。
本發(fā)明的目的之二在于提供一種電子設(shè)備,其能解決目前得到的用戶畫(huà)像不夠準(zhǔn)確,具有很大偏差的問(wèn)題。
本發(fā)明的目的之三在于提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其能解決目前得到的用戶畫(huà)像不夠準(zhǔn)確,具有很大偏差的問(wèn)題。
本發(fā)明的目的之四在于提供一種微博用戶畫(huà)像系統(tǒng),其能解決目前得到的用戶畫(huà)像不夠準(zhǔn)確,具有很大偏差的問(wèn)題。
本發(fā)明的目的之一采用以下技術(shù)方案實(shí)現(xiàn):
一種微博用戶畫(huà)像方法,該方法包括:
數(shù)據(jù)獲取,獲取微博平臺(tái)上的用戶基礎(chǔ)數(shù)據(jù);
標(biāo)注數(shù)據(jù),對(duì)所述用戶基礎(chǔ)數(shù)據(jù)進(jìn)行標(biāo)注處理,得到標(biāo)注用戶基礎(chǔ)數(shù)據(jù);
生成分類(lèi)模型,創(chuàng)建強(qiáng)分類(lèi)器,所述強(qiáng)分類(lèi)器用于訓(xùn)練所述用戶基礎(chǔ)數(shù)據(jù);將所述標(biāo)注用戶基礎(chǔ)數(shù)據(jù)作為所述強(qiáng)分類(lèi)器的輸入進(jìn)行訓(xùn)練生成分類(lèi)模型;
生成用戶畫(huà)像,將待判定用戶數(shù)據(jù)輸入到所述分類(lèi)模型中,得到用戶畫(huà)像。
進(jìn)一步地,還包括數(shù)據(jù)處理,將所述用戶基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)清理、預(yù)處理以及特征選擇,所述數(shù)據(jù)清理包括對(duì)所述用戶基礎(chǔ)數(shù)據(jù)進(jìn)行去噪處理;所述預(yù)處理包括對(duì)所述用戶基礎(chǔ)數(shù)據(jù)進(jìn)行分詞處理、取出停止詞處理、向量化處理;所述特征選擇包括使用信息增益的特征選擇方法選擇所述用戶基礎(chǔ)數(shù)據(jù)中特征用于控制特征空間的維度。
進(jìn)一步地,在所述將待判定用戶數(shù)據(jù)輸入到所述分類(lèi)模型中之前,還包括驗(yàn)證所述分類(lèi)模型,輸入用于驗(yàn)證的驗(yàn)證數(shù)據(jù)至所述分類(lèi)模型,得到驗(yàn)證結(jié)果,并對(duì)所述驗(yàn)證結(jié)果進(jìn)行評(píng)估。
進(jìn)一步地,所述創(chuàng)建強(qiáng)分類(lèi)器具體為:
根據(jù)Bagging算法、Stacking算法對(duì)SVM分類(lèi)器、K-NN分類(lèi)器以及GBDT分類(lèi)器進(jìn)行融合,得Bagging算法融合模型和Stacking算法融合模型;
根據(jù)Boosting算法將所述Bagging算法融合模型和所述Stacking算法融合模型融為一體,得到強(qiáng)分類(lèi)器。
進(jìn)一步地,所述根據(jù)Bagging算法對(duì)所述SVM分類(lèi)器、K-NN分類(lèi)器以及GBDT分類(lèi)器進(jìn)行融合具體為:在原始訓(xùn)練集中每次有放回地選出子訓(xùn)練集,得到新訓(xùn)練集,根據(jù)所述SVM分類(lèi)器、K-NN分類(lèi)器以及GBDT分類(lèi)器分別對(duì)所述新訓(xùn)練集進(jìn)行訓(xùn)練,得到Bagging算法融合模型。
進(jìn)一步地,所述根據(jù)Stacking算法對(duì)所述SVM分類(lèi)器、K-NN分類(lèi)器以及GBDT分類(lèi)器進(jìn)行融合具體為:分別將原始訓(xùn)練集輸入到所述SVM分類(lèi)器、K-NN分類(lèi)器以及GBDT分類(lèi)器中進(jìn)行訓(xùn)練,得到訓(xùn)練結(jié)果,將所述訓(xùn)練結(jié)果輸入到所述SVM分類(lèi)器中,得到Stacking算法融合模型。
進(jìn)一步地,所述根據(jù)Boosting算法將所述Bagging算法融合模型和所述Stacking算法融合模型融為一體具體為通過(guò)將所述Bagging算法融合模型和所述Stacking算法融合模型迭代產(chǎn)生新的強(qiáng)分類(lèi)器。
本發(fā)明的目的之二采用以下技術(shù)方案實(shí)現(xiàn):
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣州汪汪信息技術(shù)有限公司,未經(jīng)廣州汪汪信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710807779.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用戶畫(huà)像標(biāo)簽查詢方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 廣告投放方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種主體畫(huà)像生成的方法、裝置和存儲(chǔ)介質(zhì)
- 基于流平臺(tái)的智能全景客戶畫(huà)像聯(lián)動(dòng)方法及系統(tǒng)
- 畫(huà)像構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 畫(huà)像構(gòu)建方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種適用于城市軌道交通的乘客畫(huà)像系統(tǒng)及其構(gòu)建方法
- 用戶畫(huà)像方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及終端設(shè)備
- 一種跨境場(chǎng)景畫(huà)像構(gòu)建方法和裝置
- 一種用戶畫(huà)像方法與裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





