[發明專利]一種融合話題屬性和情感信息的文本數據觀點摘要挖掘方法有效
| 申請號: | 201810165734.3 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108287922B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 廖祥文;陳國龍;趙楠;楊定達 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 話題 屬性 情感 信息 文本 數據 觀點 摘要 挖掘 方法 | ||
本發明提供一種融合話題屬性和情感信息的文本數據觀點摘要挖掘方法,包括:對話題的文本語料集進行預處理;輸入話題語料集和背景語料集;提取話題語料集的話題屬性;將得到的話題屬性添加情感極性,對句子向量化;將得到的話題屬性作為評價對象,得出句子包含的情感屬性特征,通過話題屬性和情感分析方法將一個句子進行特征向量化;利用得到的話題屬性集合、文本句子特征向量集合S構建三層圖結構,把所有文本句子聚類;從類簇中挑選句子組成觀點摘要,挑選得分高的句子組成觀點摘要。本發明使得采用提取話題屬性方法提取的話題屬性更為精準,同樣使其不僅僅應用與中文微博領域,更可以用于網站新聞、商品評論領域。
技術領域
本發明涉及文本摘要、情感分析領域,更具體地,涉及一種對中文微博語料的海量話題文本數據生成帶有富含用戶情感信息的簡短的觀點摘要,觀點摘要能夠準確地覆蓋文本所討論的重點內容,并能夠應用于新聞摘要、商品評論分析等實際應用場景。
背景技術
當前,有很多技術方法可用于觀點摘要領域的研究。傳統的觀點摘要模型包括圖模型和排序模型。圖模型的代表方法有Textrank、PageRank、LexRank等方法,它們利用句子作為節點,句子與句子之間的某種關系作為邊的權重,通過隨機游走模型對句子的得分做迭代更新計算,從而實現對句子的評分,選擇一定數量得分高的句子組合成觀點摘要,而排序模型從觀點摘要的多樣性、冗余性等考慮因素出發,構建句子評分函數實現對句子的評分,或利用KL散度、MMR方法對句子做一個相對的分數排序,通過分數排序得到觀點摘要。其中這兩種方法都忽略了更細粒度的文本話題屬性,并沒有在圖結構中融合話題屬性的細粒度情感信息,在一定程度上。
當前,國內外研究學者紛紛對此展開研究,提出了生成式的觀點摘要模型和基于次模函數的觀點摘要模型。其中,生成式觀點摘要模型根據觀點摘要的多樣性、文本信息冗余性等要素來考慮理想的觀點摘要,將文本句子分詞,通過遍歷組合的方式將所有的單詞通過不同的組合生成新的句子或簡短的文本,將最終符合要求的單詞組合形式作為最終的觀點摘要,該方法具有較好的效果,但算法求解的時間復雜度過高,對于較短的數據集都要花數倍其他方法的時間,同樣無法應用在大數據背景下的實際場景。而基于次模函數的觀點摘要方法通過次模函數性質,利用貪心算法保證得到的局部解可以不低于最優解的63%,其貪心算法考慮了多種要素的情況挑選句子,雖然實驗效果相對較好,但手動構建語料本體樹的方式并不適用于更為廣泛的應用場景。
一般而言,觀點摘要的兩個基礎性質是:1)保證得到的摘要覆蓋話題文本主旨;2)得到的摘要覆蓋富有情感色彩的話題主旨。不足的是,現有的多數圖模型考慮利用文本句子和話題特征來構建圖結構,并且通過整個文本句子的情感信息刻畫觀點摘要的情感信息,沒有在圖結構中融合話題屬性的情感信息,沒有考慮不同情感的話題特征是兩個不同含義的主體,導致包含不同情感話題屬性的句子被關聯起來。因此,人們迫切希望能有一種更加高效準確的觀點摘要研究方法,該方法通過實體抽取方法從源文本中提取話題屬性單詞作為文本主旨關鍵詞,結合情感分析研究方法來研究每個句子中關于以話題屬性為評價對象的情感信息,并將帶情感信息的話題屬性融入到圖結構中。
發明內容
本發明的目的是解決從海量觀點文本數據的抽取觀點句子的問題,提出一種融合話題屬性情感信息的觀點摘要方法,從話題屬性及其情感信息出發解決當前研究方法存在的問題,能夠高效準確地得到話題文本的觀點摘要,并且能夠應用于更大規模數據集應用場景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810165734.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息推薦方法及裝置
- 下一篇:一種可視化接口數據智能提取系統及其設計方法





