[發明專利]多種語言文本數據分類處理方法無效
| 申請號: | 201310397617.7 | 申請日: | 2013-09-04 |
| 公開(公告)號: | CN103488623A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 程學旗;林政;張瑾;譚松波;徐學可 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多種 語言 文本 數據 分類 處理 方法 | ||
1.一種自學習的涉及多語言數據處理分類方法,其特征在于,包括如下步驟:
步驟1,通過第一種子詞中文或者外文“很”抽取候選情感詞,然后進行停用詞過濾,停用詞表從語料庫中自動獲取;
步驟2,通過第二種子詞“好”和第三種子詞“差”或者外文“好”“差”對情感詞和情感文本同時進行支持或反對聚類;
步驟3,通過半監督學習構建情感分類器,先從步驟2聚類的結果中挑選確信的樣本訓練初始分類器,然后融合文本的情感得分和分類器的后驗概率來挑選新樣本加入訓練集。
2.如權利要求1所述的涉及多語言數據處理分類方法,其特征在于,所述步驟1包括:
步驟21,統計語料庫中所有詞的詞頻,將超過一定閾值的高頻詞看作停用詞,自動獲得停用詞表;
步驟22,如果停用詞表中出現情感詞,則將情感詞濾除,只保留非情感詞的停用詞,得到非情感詞集合。
3.如權利要求2所述的涉及多語言數據處理分類方法,其特征在于,所述步驟2包括:
步驟31,對情感詞和情感文本進行粗略標注為正/負;文本中所包含的所有情感詞均被賦予相同的傾向性;
步驟32,對每個情感詞指定一個唯一的極性,引入KL距離法對極性模糊的情感詞進行消歧;
步驟33,對情感詞和情感文本進行迭代聚類;
步驟34,用消歧后的情感詞來重新標注情感文本作為標注集,然后再用該標注集重新標注情感詞,如此反復,迭代進行。
4.如權利要求3所述的涉及多語言數據處理分類方法,其特征在于,所述步驟3包括:
步驟41,從標注集中挑選最確信的樣本作為初始訓練集,然后在初始訓練集上訓練分類器;
步驟42,從分類器的預測結果中挑選最確信的樣本加入訓練集重新訓練分類器,迭代進行。
5.如權利要求3所述的涉及多語言數據處理分類方法,其特征在于,所述步驟3包括:
步驟43,將所有的文本按照情感詞得分進行排序,然后挑選得分最高的文本作為初始集,用于提高初始訓練集的準確率;
步驟44,新機制將分類器生成的后驗概率和文本的情感得分相加,用于防止自學習過程中的分類偏移。
6.如權利要求2所述的涉及多語言數據處理分類方法,其特征在于,步驟2還包括步驟24,對于集合S中的每一個詞統計“很”的出現頻率,并根據公式計算權重:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310397617.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:凈水儀
- 下一篇:微波法一步合成硫化銅銦量子點的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





