[發明專利]一種融合話題屬性和情感信息的文本數據觀點摘要挖掘方法有效
| 申請號: | 201810165734.3 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108287922B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 廖祥文;陳國龍;趙楠;楊定達 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 話題 屬性 情感 信息 文本 數據 觀點 摘要 挖掘 方法 | ||
1.一種融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,其特征在于:包括以下步驟:
步驟S1:對話題的文本語料集進行預處理,清理一些不相關的詞;
步驟S2:輸入話題語料集和背景語料集;
步驟S3:利用對數似然比方法提取話題語料集的話題屬性;
步驟S4:將步驟S3得到的話題屬性添加情感極性,情感極性包括正面情感、負面情感,由此將正面話題屬性和負面話題屬性作為情感屬性特征,用于對句子向量化;
步驟S5:將步驟S3得到的話題屬性作為評價對象,采用面向多評價對象的動態詞序列情感分析方法分析句子中包含的評價對象的情感極性,得出句子包含的情感屬性特征,句子包含情感屬性特征則相應特征值為1,不包含則特征則值為0,如此通過話題屬性和情感分析方法將一個句子進行特征向量化,并把文本句子中所有的正面話題屬性用表示,負面話題屬性集合用表示;
步驟S6:利用步驟S5得到的文本句子特征向量集合S構建三層圖結構,利用圖的連通性,三層圖網絡變成各個獨立的圖,每個圖中的句子就形成一個類簇,從而把所有文本句子聚類;
步驟S7:從類簇中挑選句子組成觀點摘要,提出基于圖聚類的觀點句子選擇方法,定義觀點句子評分函數,函數考慮句子包含的情感話題屬性因素、情感話題屬性被包含的句子個數因素及句子的情感信息因素,利用觀點句子評分函數對類簇中句子進行評分,從每個類簇中挑選得分高的句子組成觀點摘要;
步驟S5中面向多評價對象的動態詞序列方法是基于情感詞典的詞袋模型,主要分為兩步:第一步利用動態詞序列的方法切割句子詞序列,得到句子中包含的每個評價對象的詞序列;第二步利用情感詞典匹配每個評價對象的詞序列情感詞,利用情感詞的極性和權重計算該評價對象的情感傾向,根據句子中的話題屬性和情感極性得到句子特征向量,文本句子特征向量集合表示為S。
2.根據權利要求1所述的融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,其特征在于:步驟S1中數據預處理過濾掉無實質內容、無任何意義的不相關文本以及常見的停用詞;過濾規則由如下:
(1)去除評論句子中的網頁鏈接;
(2)去除字符長度小于3的評論句子;
(3)去除評論句子中的常用不相關詞;
(4)將所有英文表成小寫。
3.根據權利要求1所述的融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,其特征在于:步驟S2中針對預處理后的文本,設定當前話題文本為話題語料集,其他話題文本作為背景語料集,步驟S3中借助對數似然比方法,計算話題語料集中的單詞的對數似然比值,并利用閾值對單詞進行過濾,其中單詞詞性要求必須是名詞、形容詞、動詞、數詞,提取話題語料集的話題屬性。
4.根據權利要求1所述的融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,其特征在于:步驟S5中詞序列的方法流程如下:
步驟S51:確定評價對象在句子中的位置,針對每一個句子,以話題屬性集合A中的話題屬性為評價對象,按照句子前到后的方向確定各個評價對象在句子中的位置,位置從小到大;
步驟S52:以句子中評價對象的位置為中心向左右兩個方向擴展,直到遇到標點符號或其他評價對象;
步驟S53:若向左或向右遇到標點符號,則截取標點符號到評價對象內的左詞序列或右詞序列;
步驟S54:若向左或向右遇到其他評價對象,則取兩個評價對象的位置坐標的中間坐標,截取中間坐標到評價對象位置的詞序列作為左詞序列或右詞序列;
步驟S55:經過上述步驟后得到某一評價對象的左詞序列和右詞序列,左詞序列和右詞序列合并得到該評價對象完整的詞序列,其中是評價對象,做情感分析時去掉,參數范圍,兩者具體的值是動態變化的,沒有固定值,對于兩個不同詞序列存在兩者的參數值不一樣;同時,對于任意兩個動態詞序列和,滿足條件,即兩個詞序列沒有重合的單詞序列。
5.根據權利要求1所述的融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,其特征在于:步驟S7中利用基于圖聚類的觀點句子選擇方法來挑選句子,首先定義觀點句子評分函數,利用評分函數對類簇中的句子評分并排序,從每個類簇中選擇排序靠前的句子組成觀點摘要,其中句子數量限制在20個以內或者以一定的壓縮比來限制句子的個數;其中觀點句子評分函數考慮三個因素:句子包含的情感話題屬性個數、情感話題屬性被包含的句子個數、句子的情感信息;針對這三者得到線性評分函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810165734.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息推薦方法及裝置
- 下一篇:一種可視化接口數據智能提取系統及其設計方法





