[發明專利]基于自適應提升算法的中文微博觀點句識別特征的提取方法在審
| 申請號: | 201410135746.3 | 申請日: | 2014-04-04 |
| 公開(公告)號: | CN103886097A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 陳鍛生;吳揚揚;方圓 | 申請(專利權)人: | 華僑大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭 |
| 地址: | 362000*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 提升 算法 中文 觀點 識別 特征 提取 方法 | ||
1.基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:包括:
步驟1,具有帶是否為觀點句標記的微博訓練樣本,輸入該微博訓練樣本集合S={(xi,yi),i=1,…,n},其中xi∈X,yi∈Y,Y={-1,+1},X是該n個微博訓練樣本的m個特征,Y是每一個微博訓練樣本對應的分類結果,若該微博訓練樣本xi是觀點句,則該微博訓練樣本標記為yi=+1,否則為yi=-1;
設定特征選擇的迭代終止條件為:分類誤差εj與0.5的差距小于閾值β,其中,β可根據情況自行設定;
設定微博訓練樣本集的初始權重分布D1為平均分布,即
設定被選擇的初始特征集合為空集;
設定迭代變量初始值j=1,最大迭代次數為m;
步驟2,按以下步驟21-27進行循環迭代,包括:
步驟21,在權重分布為Dj的微博訓練樣本集中,找到以特征fj為單一特征的弱分類器hj,該弱分類器hj對該微博訓練樣本集的分類誤差εj與0.5的差距最大,其中:該弱分類器對該微博訓練樣本集的分類誤差h為所有輸出為Y的單一特征弱分類器;
步驟22,記下該弱分類器hj的參數:特征fj、二分該權重分布微博訓練樣本集的閾值和二元關系運算符;
步驟23,更新被選擇特征集合F=F∪{fj},本次迭代所選的特征fj在以后的迭代中不再使用;
步驟24,計算該弱分類器hj在強分類器H中的權重
步驟25,如果分類誤差|εj-0.5|≤β,則最大迭代次數T=j,退出迭代,結束特征選擇,否則,繼續進行步驟26;
步驟26,迭代變量j值加1,如果j大于m,則已經選擇全部特征,退出迭代,否則,繼續進行步驟27;
步驟27,更新該微博訓練樣本集的權重分布:i=1,…,n,其中,返回步驟21;
步驟3,輸出被選擇特征集合F={fj|j=1,…,T}和強分類器
2.根據權利要求1所述的基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:該分類誤差εj與0.5的差距β能夠被設定。
3.根據權利要求1所述的基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:中文微博觀點句的識別特征包括中文微博語句中的詞性。
4.根據權利要求1所述的基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:中文微博觀點句的識別特征包括情感詞典中的情感詞語集合。
5.根據權利要求1所述的基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:中文微博觀點句的識別特征包括詞與詞之間的依存特征。
6.根據權利要求1所述的基于自適應提升算法的中文微博觀點句識別特征的提取方法,其特征在于:中文微博觀點句的識別特征包括詞與詞之間的位置特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華僑大學,未經華僑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410135746.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高性能超細晶硬質合金新材料分條分切刀
- 下一篇:一種能夠伸縮的萬用表表棒





