[發(fā)明專利]基于微博情感的實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201510864383.1 | 申請(qǐng)日: | 2015-11-30 |
| 公開(kāi)(公告)號(hào): | CN105335352A | 公開(kāi)(公告)日: | 2016-02-17 |
| 發(fā)明(設(shè)計(jì))人: | 崔曉輝;朱衛(wèi)平;張威風(fēng);楊威;王志波;李偉 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 情感 實(shí)體 識(shí)別 方法 | ||
1.一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,包括以下幾個(gè)步驟:
步驟1.訓(xùn)練階段,選取最優(yōu)機(jī)器學(xué)習(xí)算法;
步驟1.1根據(jù)Circumplex環(huán)形情感模型,構(gòu)造四類情感詞詞典;所述的四類情感詞詞典映射到一個(gè)二維坐標(biāo)系之中,這四個(gè)維度的坐標(biāo)軸分別是:快樂(lè)并活躍,快樂(lè)但不活躍,不快樂(lè)但活躍和不快樂(lè)不活躍;
步驟1.2使用網(wǎng)絡(luò)API采集技術(shù),以四類情感詞為關(guān)鍵詞從微博上獲取微博數(shù)據(jù),作為訓(xùn)練數(shù)據(jù);
步驟1.3對(duì)采集到的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,生成規(guī)范的訓(xùn)練數(shù)據(jù)集;
步驟1.4對(duì)訓(xùn)練數(shù)據(jù)提取關(guān)鍵字,依據(jù)向量空間模型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行向量化;
步驟1.5依據(jù)預(yù)設(shè)的機(jī)器學(xué)習(xí)算法,分別對(duì)向量化的訓(xùn)練數(shù)據(jù)集進(jìn)行情感分類和5重交叉驗(yàn)證;
步驟1.6計(jì)算每個(gè)機(jī)器學(xué)習(xí)算法5次交叉驗(yàn)證的準(zhǔn)確率和召回率,挑選出準(zhǔn)確率和召回率平均值最高的機(jī)器學(xué)習(xí)算法作為最優(yōu)機(jī)器學(xué)習(xí)分類算法;
步驟2.實(shí)驗(yàn)階段,根據(jù)步驟1得到的最優(yōu)機(jī)器學(xué)習(xí)分類算法,得到被識(shí)別的情感實(shí)體;
步驟2.1按照步驟1中步驟1.1至步驟1.4相同的方法獲取向量化的實(shí)驗(yàn)數(shù)據(jù)集;
步驟2.2使用步驟1中的得到的最優(yōu)機(jī)器學(xué)習(xí)分類算法,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類,得到四類情感數(shù)據(jù)集;
步驟2.3對(duì)四類情感數(shù)據(jù)集分別進(jìn)行一次實(shí)體抽取,得到被識(shí)別的情感實(shí)體。
2.根據(jù)權(quán)利要求1所述的一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,所述的步驟1.3中的預(yù)處理,包括修正錯(cuò)誤詞組、刪除無(wú)關(guān)詞組、修正錯(cuò)誤詞組、刪除歧義的微博和同義詞轉(zhuǎn)換;所述的修正錯(cuò)誤詞組是指對(duì)拼寫(xiě)錯(cuò)誤的單詞進(jìn)行修正;刪除無(wú)關(guān)詞組指對(duì)情感分析沒(méi)有任何益處的單詞進(jìn)行刪除;刪除歧義的微博指在一個(gè)文本卻屬于不同的情感類別的微博;同義詞轉(zhuǎn)換是指把相同意思的詞用另一個(gè)詞代替。
3.根據(jù)權(quán)利要求1所述的一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,所述的步驟1.4中使用TF-IDF算法提取關(guān)鍵詞,如果包含表情和標(biāo)點(diǎn)符號(hào),則將常用的表情符號(hào)和表示語(yǔ)氣的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)化為相應(yīng)的單詞。
4.根據(jù)權(quán)利要求1所述的一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,所述的步驟1.4中使用word2vec開(kāi)源工具構(gòu)建詞向量,依據(jù)向量空間模型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行向量化。
5.根據(jù)權(quán)利要求1所述的一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,所述的步驟2.3中,使用SENNA深度學(xué)習(xí)工具包,對(duì)四類情感數(shù)據(jù)集分別進(jìn)行一次實(shí)體抽取。
6.根據(jù)權(quán)利要求1所述的一種基于微博情感的實(shí)體識(shí)別方法,其特征在于,所述的步驟1.5中,預(yù)設(shè)的機(jī)器學(xué)習(xí)算法包括樸素貝葉斯、邏輯回歸、支持向量機(jī)和K近鄰算法4種機(jī)器學(xué)習(xí)算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510864383.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





