[發明專利]情感詞匯的識別方法及裝置有效

申請號：	201611199221.1	申請日：	2016-12-22
公開（公告）號：	CN106776566B	公開（公告）日：	2019-12-24
發明（設計）人：	王偉	申請（專利權）人：	東軟集團股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	11348 北京鼎佳達知識產權代理事務所(普通合伙)	代理人：	劉喆;劉鐵生
地址：	110179 遼***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	情感詞匯識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種情感詞匯的識別方法及裝置，涉及網絡技術領域，可以根據文本信息的情感傾向性，所述方法包括：對所述文本信息進行正負向情感標記，以及對所述文本信息進行分詞處理，得到多個情感候選詞匯；根據所述文本信息的正負向情感標記結果和卡方統計特征選擇算法，從所述多個情感候選詞匯中統計得到詞匯卡方值大于或等于預設閾值的第一情感詞匯候選集合；根據所述文本信息的正負向情感標記結果和邏輯回歸分類算法，計算所述第一情感詞匯候選集合中每個情感候選詞匯對應的情感傾向強度值；將所述第一情感詞匯候選集合中情感傾向強度值大于或等于預設強度閾值的情感候選詞匯，確定為所述文本信息中存在的情感詞匯。

技術領域

本發明涉及一種信息識別技術領域，特別是涉及一種情感詞匯的識別方法及裝置。

背景技術

隨著網絡技術的蓬勃發展，互聯網已經越來越成為現代社會各種信息的載體，并逐漸倡導“以用戶為中心，用戶參與”的開放式架構理念?；ヂ摼W上產生了大量包含用戶評論的文本信息，這些文本信息表達了用戶的各種情感色彩和情感傾向性，例如喜、怒、哀、樂和批評、贊揚等。進而潛在的用戶就可以通過瀏覽這些主觀色彩的評論來了解大眾輿論對于某一事件或產品的看法或情感傾向。

為了對包含用戶評論的文本信息進行有效的分析，需要從文本信息中識別出存在的情感詞匯，目前可以預先選出一組情感種子集合，再將文本信息進行分詞處理得到候選詞匯，然后計算候選詞匯與情感種子集合之間的相關度來判斷候選詞匯的情感傾向，進而識別出文本信息中存在的情感詞匯。

然而，上述方法的識別結果很大程度上依賴情感種子集合的質量，需要預先收集大量的情感種子詞，工作量較大，會造成情感詞匯識別的成本較高，并且如果情感種子詞選擇的不合適，還會影響情感詞匯識別的準確性。

發明內容

有鑒于此，本發明提供了一種情感詞匯的識別方法及裝置，主要目的在于可以準確的識別出文本信息中存在的情感詞匯。

依據本發明一個方面，提供了一種情感詞匯的識別方法，該方法包括：

根據文本信息的情感傾向性，對所述文本信息進行正負向情感標記，以及對所述文本信息進行分詞處理，得到多個情感候選詞匯；

根據所述文本信息的正負向情感標記結果和卡方統計特征選擇算法，從所述多個情感候選詞匯中統計得到詞匯卡方值大于或等于預設閾值的第一情感詞匯候選集合；

根據所述文本信息的正負向情感標記結果和邏輯回歸分類算法，計算所述第一情感詞匯候選集合中每個情感候選詞匯對應的情感傾向強度值；

將所述第一情感詞匯候選集合中情感傾向強度值大于或等于預設強度閾值的情感候選詞匯，確定為所述文本信息中存在的情感詞匯。

具體地，所述根據所述文本信息的正負向情感標記結果和邏輯回歸分類算法，計算所述第一情感詞匯候選集合中每個情感候選詞匯對應的情感傾向強度值，具體包括：

計算所述第一情感詞匯候選集合中情感候選詞匯的tf-idf值，作為所述情感候選詞匯的特征值；

以所述情感候選詞匯的特征值和所述文本信息的正負向情感標記結果作為計算參數，根據邏輯回歸分類算法，計算所述第一情感詞匯候選集合中每個情感候選詞匯對應的情感傾向強度值。