[發明專利]一種基于話題多樣性的文本數據觀點摘要挖掘方法有效
| 申請號: | 201810166896.9 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108268668B | 公開(公告)日: | 2022-01-18 |
| 發明(設計)人: | 廖祥文;陳國龍;趙楠;楊定達 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/36;G06F16/33 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 話題 多樣性 文本 數據 觀點 摘要 挖掘 方法 | ||
1.一種基于話題多樣性的文本數據觀點摘要挖掘方法,其特征在于:包括以下步驟:
步驟S1:對話題文本進行預處理,過濾掉無實質內容、無任何意義的不相關文本以及常見的停用詞;
步驟S2:輸入話題語料集和背景語料集;
步驟S3:提取話題語料集的話題屬性;
步驟S4:將步驟S3得到的話題屬性添加情感極性,情感極性包括正面情感、負面情感,由此將正面話題屬性和負面話題屬性作為情感屬性特征,用于對句子向量化;
步驟S4中包括以下具體步驟:
將得到的話題屬性作為評價對象,利用面向多評價對象的動態詞序列情感分析方法分析評價對象在句子中的情感極性,給話題屬性分別加上正面或負面情感極性,分別得到正面的話題屬性和負面的話題屬性;
步驟S5:將步驟S3得到的話題屬性作為評價對象,采用面向多評價對象的動態詞序列情感分析方法分析句子中包含的評價對象的情感極性,得出句子包含的情感屬性特征,句子包含情感屬性特征則相應特征值為1,不包含則特征則值為0,如此通過話題屬性和情感分析方法將一個句子進行特征向量化;
其中面向多評價對象的動態詞序列情感分析方法是基于情感詞典的詞袋模型,主要分為兩步:第一步利用動態詞序列的方法切割句子詞序列,得到句子中包含的每個評價對象的詞序列;第二步利用情感詞典匹配每個評價對象的詞序列情感詞,利用情感詞的極性和權重計算該評價對象的情感傾向,根據句子中的話題屬性和情感極性得到句子特征向量;
步驟S6:利用步驟S5得到的文本句子特征向量構建多樣性目標函數;
步驟S6中構建多樣性目標函數,目標函數保證挑選一定數量的句子集合包含的情感話題屬性最多,將此句子集合作為觀點摘要,由此保證最終得到的觀點摘要多樣性最好;
目標函數的構建包括以下步驟:首先構建融合話題多樣性和句子重要性的觀點句子評分函數,評分函數中考慮句子與摘要集合之間的話題屬性差異,并融合句子的重要性,利用話題屬性權重和句子包含的話題屬性得到句子的重要性,每次選擇使得觀點摘要集合話題多樣性增加最大的句子加入到觀點摘要中,其中句子數量限制在20個以內或者以一定的壓縮比來限制句子的個數。
2.根據權利要求1所述的基于話題多樣性的文本數據觀點摘要挖掘方法,其特征在于:步驟S1中的過濾規則如下:
(1)、去除評論句子中的網頁鏈接;
(2)、去除字符長度小于3的評論句子;
(3)、去除評論句子中的常用不相關詞;
(4)、將所有英文表成小寫或大寫。
3.根據權利要求1所述的基于話題多樣性的文本數據觀點摘要挖掘方法,其特征在于:步驟S2 包括以下步驟:針對預處理后的文本,設定當前話題文本為話題語料集,其他話題文本作為背景語料集。
4.根據權利要求1所述的基于話題多樣性的文本數據觀點摘要挖掘方法,其特征在于:步驟S3借助對數似然比方法,計算話題語料集中的單詞的對數似然比值,并利用閾值對單詞進行過濾,提取話題語料集的話題屬性,其中單詞詞性要求必須是名詞、形容詞、動詞或數詞。
5.根據權利要求1所述的基于話題多樣性的文本數據觀點摘要挖掘方法,其特征在于:
將步驟S4中帶有情感的話題屬性作為情感話題屬性,并作為特征用于步驟S6的句子特征向量化;
其中詞序列的方法流程簡述如下:
步驟S41:確定評價對象在句子中的位置;針對每一個句子,以話題屬性集合中的話題屬性為評價對象,按照句子前到后的方向確定各個評價對象在句子中的位置,位置從小到大;
步驟S42:以句子中評價對象的位置為中心向左右兩個方向擴展,直到遇到標點符號或其他評價對象;
若向左或向右遇到標點符號,則截取標點符號到評價對象內的左詞序列或右詞序列;
若向左或向右遇到其他評價對象,則取兩個評價對象的位置坐標的中間坐標,截取中間坐標到評價對象位置的詞序列作為左詞序列或右詞序列;
步驟S423:經過上述步驟后得到某一評價對象的左詞序列和右詞序列,左詞序列和右詞序列合并得到該評價對象完整的詞序列,其中是評價對象,做情感分析時去掉,參數范圍,兩者具體的值是動態變化的,沒有固定值,對于兩個不同詞序列存在兩者的參數值不一樣;同時,對于任意兩個動態詞序列和,滿足條件,即兩個詞序列沒有重合的單詞序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810166896.9/1.html,轉載請聲明來源鉆瓜專利網。





