[發明專利]一種基于極大無關多元邏輯回歸的文本情感分類方法有效
| 申請號: | 201810332338.5 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108595568B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 雷大江;張紅宇;陳浩;張莉萍;吳渝;楊杰;程克非 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/18 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 賈允;肖丁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 極大 無關 多元 邏輯 回歸 文本 情感 分類 方法 | ||
本發明提供了一種基于極大無關多元邏輯回歸的文本情感分類方法,所述方法包括:獲取文本數據,并對所述文本數據進行預處理;在第一模型的代價函數基礎上,通過引入相關參數懲罰項,獲取第二模型的代價函數;將預處理得到的訓練數據輸入第二模型的代價函數的導函數,并進行求解得到第二模型;所述第一模型為多元邏輯回歸模型,所述第二模型為極大無關多元邏輯回歸模型;將預處理得到的待預測數據輸入所述第二模型,得到待預測數據中每個文本條目所屬的情感類別。通過添加不相關約束項使得針對冗余數據具有較高的魯棒性;降低了傳統的多元邏輯回歸模型的復雜度,具有更強的泛化能力;進而能夠對獲取的目標文本數據中文本條目進行精確分類。
技術領域
本發明涉及機器學習領域,尤其涉及一種基于極大無關多元邏輯回歸的文本情感分類方法。
背景技術
分類作為機器學習、數據挖掘的關鍵部分,在圖像識別、藥物開發、語音識別、手寫辨識等方面有著廣泛的應用。它是基于已知訓練集識別一個新的實例屬于哪個類別的有監督的學習問題。在分類算法中,非線性分類能力以及能否擴展到多分類至關重要。
支持向量機(SVM)是一種經典的二值分類器,其采用Hinge損失,通過解帶約束條件的二次優化問題來建立數據集之間的最佳分界線。與其他算法相比,其重要優勢在于:通過使用不同的核函數,SVM既可以用于線性分類,也可以用于非線性分類。但是由于其依賴于一對一模式,SVM在多類分類上受到很大限制,盡管在將SVM擴展到多類分類上做了很多努力,但這些方法仍然有很多負面的影響。例如,多類別分類中,SVM一對多的決策方法就深受數據集類間不平衡的影響。另一個重要的問題是它可能將同一實例分配給多個類。雖然許多方法被提出來解決這些問題,但是它們都有其他不利影響:比如效率。SVM的結果是純粹二分的,不支持概率輸出。SVM從一個任務的數值輸出與另一個任務的數值輸出不具有可比性。此外,與基于信任度的分類器相比,這種沒有限制的數值對于終端用戶來講很難解釋其背后的意義。
邏輯回歸(LR)是分類的重要方法之一。標準邏輯回歸使用Logistical損失,通過輸入變量的系數加權線性組合來分類。邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權重,提升了與分類最相關的數據點的權重,相較于支持向量機,自某一給定的類上,標準邏輯回歸能給出相應的類分布估計,并且在模型訓練時間上也占很大優勢。邏輯回歸相對來說模型更簡單、好理解,針對大規模線性分類時實現起來比較方便。此外,標準邏輯回歸比支持向量機更容易擴展到多類分類。一些針對邏輯回歸的改進算法例如:稀疏邏輯回歸、加權邏輯回歸等都在相應領域取得較好的效果。
然而邏輯回歸只能用于二分類問題,不能直接應用于多類別(類別k2)分類問題。為了用邏輯回歸解決多分類問題,通常有兩類邏輯回歸擴展方式,一類是建立k個獨立的二元分類器,每個分類器將一類樣本標記為正樣本,將所有其他類別的樣本標記為負樣本。針對給定測試樣本,每個分類器都可以得到該測試樣本屬于這一類的概率,因此可以通過取最大類別概率來進行多分類。另外一類則被稱作多元邏輯回歸(Multinomial LogisticRegression,MLR),它是邏輯回歸模型在多分類問題上的推廣。具體選取哪種方法處理多分類問題通常取決于待分類類別之間是否互斥。對于多分類問題來說,類別之間通常是互斥的。因此,使用多元邏輯回歸相較于邏輯回歸通常能得到更好的結果。同時,多元邏輯回歸只需要訓練一次即可,因此它也具有較快的運行速度。
在計算機信息處理領域,文本數據集通常含有較多的共同信息,這些共同信息大大增加了識別的復雜度與識別誤差,多元邏輯回歸雖然訓練多組參數用以針對每個類別計算出相應的概率,然而并沒有考慮各組參數之間是否相關的問題。因此一種基于極大無關的多元邏輯回歸文本情感分類方法的實現具有一定的現實意義。
發明內容
為了解決上述技術問題,本發明提供了一種基于極大無關多元邏輯回歸的文本情感分類方法,所述方法包括:
獲取文本數據,并對所述文本數據進行預處理;所述文本數據包括訓練數據和待預測數據;所述待預測數據包括多個文本條目;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810332338.5/2.html,轉載請聲明來源鉆瓜專利網。





