[發明專利]一種基于混合優化算法的正負情感分類方法在審
申請號: | 202210363789.1 | 申請日: | 2022-04-07 |
公開(公告)號: | CN115169339A | 公開(公告)日: | 2022-10-11 |
發明(設計)人: | 高春鳴;李斌 | 申請(專利權)人: | 長沙千博信息技術有限公司 |
主分類號: | G06F40/289 | 分類號: | G06F40/289 |
代理公司: | 北京市浩東律師事務所 11499 | 代理人: | 李雁 |
地址: | 410000 湖南省長沙市*** | 國省代碼: | 湖南;43 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 混合 優化 算法 正負 情感 分類 方法 | ||
本發明公開了一種基于混合優化算法的正負情感分類方法,包含以下步驟:預處理階段:S1,讀取數據:從文本中導入數據,每一條數據對應一個情感樣本;S2,數據的歸類:對正負樣本區分開處理。將正向情感和負向情感分別放入兩個不同數組中。S3,數據的清洗:將數據中的數字,表情和符號進行刪除。優選的,本步驟應該刪除所有非中文字符。特征提取階段:S4,特征提取模塊,模塊中包括以下步驟:步驟S41:文本進行分詞處理得到分詞序列。為了得到更高的分詞序列,優選采用中科大的結巴分詞系統進行文本分詞。本發明使用一種混合優化算法來求解情感分類的模型,加快了模型的求解速度和精度,拓展了情感分類的人工智能領域。
技術領域
本發明涉及自然語言處理及機器學習技術領域,具體為一種基于混合優化算法的正負情感分類方法。
背景技術
當前隨著互聯網的快速發展,網絡和信息化技術已經迅速的影響著人類的生活。面對來自網絡的大量非結構話的文本和評論,需要通過自然語言處理技術對其中的情感傾向進行判斷。通過對文本的情感分析,可以獲得用戶的心理需求,做出合理的行為預測。虛擬人智能行為交互中,表情是信息表達的一個重要部分,比如喜歡、怒氣、悲哀、快樂、肯定、否定和中立等是可以輔助傳達信息,也是人物性格特點的一種重要體現,是自然逼真地行為交互的重要模態通道。因此,需要對文本中的情感正確理解才能更好的實現虛擬人的行為交互。
當前正負情感分類算法的技術研究基本集中在人工智能的神經網絡算法,但是由于神經網絡的算法需要大量數據樣本集才能形成高準確率的情感分類模型。因此,傳統的人工智能算法在正負情感分類模型中仍具有強大的優勢。Suport Vector Mach i ne(支撐向量機)分類器是正負情感分類的重要傳統算法、該方法能夠提高情感分類的準確率,這種方法本質上是通過最小二乘問題尋找支撐向量樣本。如果某些樣本是不精確,該算法會隨著樣本距離而增加權重,使得模型選擇錯誤的支撐向量樣本。因此該算法對數據敏感,使得算法的魯棒性低。本方法采用的是非負最小二乘模型,相比于一般的最小二乘問題,該模型不會對錯誤數據,進行權重加強的操作,因此,對錯誤數據不敏感,提高算法魯棒性。
發明內容
針對現有技術的不足,本發明提供了一種基于混合優化算法的正負情感分類方法,解決了上述背景技術中提出的問題。
為實現以上目的,本發明通過以下技術方案予以實現,一種基于混合優化算法的正負情感分類方法,包含以下步驟:
預處理階段:
S1,讀取數據:從文本中導入數據,每一條數據對應一個情感樣本;
S2,數據的歸類:對正負樣本區分開處理。將正向情感和負向情感分別放入兩個不同數組中。
S3,數據的清洗:將數據中的數字,表情和符號進行刪除。優選的,本步驟應該刪除所有非中文字符。
特征提取階段:
S4,特征提取模塊,模塊中包括以下步驟:
步驟S41:文本進行分詞處理得到分詞序列。為了得到更高的分詞序列,優選采用中科大的結巴分詞系統進行文本分詞。
步驟S42:根據特征詞匯構建特征向量。根據結巴分詞的結果,然后篩選出特征表示情感的詞匯出來,對所有詞匯進行編碼,考慮到相鄰詞匯之間的相關性,優選詞袋模型進行編碼。
X=(x1,x2,…xn)
其中,X表示一個樣本的特征向量,xi表示第i個特征的編碼,n表示特征的總個數。
S5,非負最小二乘模塊,模塊中包括以下步驟:
步驟S51:根據特征向量建立一個特征矩陣;將編碼的數據按照特征的維度進行排列,形成一個特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙千博信息技術有限公司,未經長沙千博信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210363789.1/2.html,轉載請聲明來源鉆瓜專利網。