[發明專利]基于自適應提升算法的中文微博觀點句識別特征的提取方法在審
| 申請號: | 201410135746.3 | 申請日: | 2014-04-04 |
| 公開(公告)號: | CN103886097A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 陳鍛生;吳揚揚;方圓 | 申請(專利權)人: | 華僑大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭 |
| 地址: | 362000*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 提升 算法 中文 觀點 識別 特征 提取 方法 | ||
技術領域
本發明涉及一種基于自適應提升算法的中文微博觀點句識別特征的提取方法。
背景技術
在中文微博中有效地判別是否包含人們對事物的觀點,意見或傾向等信息,是自動收集和分析網絡中文輿論數據的重要基礎。從文本挖掘的角度看,識別主觀語句能夠提高觀點分類的準確性,減小非主觀語句對觀點摘要、傾向統計和情感分析等后續自然語言處理相關任務的干擾。
隨著互聯網的迅速發展和Web2.0的普及,信息的發布不再是報刊、雜志社、電視臺和新聞網站的專利,微博網站已成為公眾信息的發布媒體。相比于傳統博客,微博最大的特點在于其“微”,即單篇博客長短一般限制在140字之內。微博中不僅可以包含新聞,還可能包含微博用戶個人對事物的觀點或意見等信息。
觀點句是基于斷言或評論并且帶有個人情感和意向的抒發。關于觀點句的分類可以追溯到意見挖掘中的主客觀句子的分類,其大多是在商品評論的媒體數據上進行的分類,而在微博上進行觀點句判別的最大特點在于其字數的限制和語言結構的自由。因為字數的限制,其詞語及其詞性、依存關系的頻率相對于普通文本大大減少;因為語言結構的自由,句法結構上的分析進行得就相對困難。對于中文微博這種短文本的主觀成分特征識別,目前還缺乏系統有效的分類方法與特征提取的組合優化方法。
自適應提升算法是一種組合多個弱分類器成為一個強分類器的方法。弱分類器是誤差概率小于0.5的兩類分類器,使用它判別兩類問題比誤差概率為0.5的隨機猜測要好,而強分類器H的誤差概率可以任意小。參照自適應提升算法的組合多分類器的思想,我們針對中文微博中主觀句識別提出了一種有效的特征選擇方法。
發明內容
本發明提供了一種基于自適應提升算法的中文微博觀點句識別特征的提取方法,其克服了背景技術中所述的不足。
本發明解決其技術問題的所采用的技術方案是:
基于自適應提升算法的中文微博觀點句識別特征的提取方法,它包括:
步驟1,具有帶是否為觀點句標記的微博訓練樣本,輸入該微博訓練樣本集合S={(xi,yi),i=1,…,n},其中xi∈X,yi∈Y,Y={-1,+1},X是該n個微博訓練樣本的m個特征,Y是每一個微博訓練樣本對應的分類結果,若該微博訓練樣本xi是觀點句,則該微博訓練樣本標記為yi=+1,否則為yi=-1;
設定特征選擇的迭代終止條件為:分類誤差εj與0.5的差距小于閾值β,其中,β可根據情況自行設定;
設定微博訓練樣本集的初始權重分布D1為平均分布,即
設定被選擇的初始特征集合為空集;
設定迭代變量初始值j=1,最大迭代次數為m;
步驟2,按以下步驟21-27進行循環迭代,包括:
步驟21,在權重分布為Dj的微博訓練樣本集中,找到以特征fj為單一特征的弱分類器hj,該弱分類器hj對該微博訓練樣本集的分類誤差εj與0.5的差距最大,其中:該弱分類器對該微博訓練樣本集的分類誤差h為所有輸出為Y的單一特征弱分類器;
步驟22,記下該弱分類器hj的參數:特征fj、二分該權重分布微博訓練樣本集的閾值和二元關系運算符;
步驟23,更新被選擇特征集合F=F∪{fj},本次迭代所選的特征fj在以后的迭代中不再使用;
步驟24,計算該弱分類器hj在強分類器H中的權重
步驟25,如果分類誤差|εj-0.5|≤β,則最大迭代次數T=j,退出迭代,結束特征選擇,否則,繼續進行步驟26;
步驟26,迭代變量j值加1,如果j大于m,則已經選擇全部特征,退出迭代,否則,繼續進行步驟27;
步驟27,更新該微博訓練樣本集的權重分布:i=1,…,n,其中:返回步驟21;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華僑大學,未經華僑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410135746.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高性能超細晶硬質合金新材料分條分切刀
- 下一篇:一種能夠伸縮的萬用表表棒





