[發(fā)明專利]一種基于話題多樣性的文本數(shù)據(jù)觀點(diǎn)摘要挖掘方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810166896.9 | 申請(qǐng)日: | 2018-02-28 |
| 公開(kāi)(公告)號(hào): | CN108268668B | 公開(kāi)(公告)日: | 2022-01-18 |
| 發(fā)明(設(shè)計(jì))人: | 廖祥文;陳國(guó)龍;趙楠;楊定達(dá) | 申請(qǐng)(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G06F16/953 | 分類號(hào): | G06F16/953;G06F16/36;G06F16/33 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 蔡學(xué)俊 |
| 地址: | 350108 福建省福*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 話題 多樣性 文本 數(shù)據(jù) 觀點(diǎn) 摘要 挖掘 方法 | ||
本發(fā)明提供一種基于話題多樣性的文本數(shù)據(jù)觀點(diǎn)摘要挖掘方法,其包括以下步驟:步驟S1:對(duì)話題文本進(jìn)行預(yù)處理;步驟S2:輸入話題語(yǔ)料集和背景語(yǔ)料集;步驟S3:提取話題語(yǔ)料集的話題屬性;步驟S4:將得到的話題屬性添加情感極性,用于對(duì)句子向量化;步驟S5:將得到的話題屬性作為評(píng)價(jià)對(duì)象,采用面向多評(píng)價(jià)對(duì)象的動(dòng)態(tài)詞序列情感分析方法分析句子中包含的評(píng)價(jià)對(duì)象的情感極性,得出句子包含的情感屬性特征,將一個(gè)句子進(jìn)行特征向量化;步驟S6:利用步驟S5得到的文本句子特征向量構(gòu)建多樣性目標(biāo)函數(shù)。能夠高效準(zhǔn)確地得到話題文本的觀點(diǎn)摘要,并且能夠應(yīng)用于更大規(guī)模數(shù)據(jù)集應(yīng)用場(chǎng)景。
技術(shù)領(lǐng)域
本發(fā)明涉及文本摘要、情感分析領(lǐng)域,更具體地,涉及一種對(duì)中文微博語(yǔ)料的海量話題文本數(shù)據(jù)生成帶有富含用戶情感信息的簡(jiǎn)短的觀點(diǎn)摘要,觀點(diǎn)摘要能夠準(zhǔn)確地覆蓋文本所討論的重點(diǎn)內(nèi)容,并能夠應(yīng)用于新聞?wù)⑸唐吩u(píng)論摘要等實(shí)際應(yīng)用場(chǎng)景。
背景技術(shù)
當(dāng)前,有很多技術(shù)方法可用于觀點(diǎn)摘要領(lǐng)域的研究。傳統(tǒng)的觀點(diǎn)摘要模型包括圖模型和排序模型。圖模型的代表方法有Textrank、PageRank、LexRank等方法,它們利用句子作為節(jié)點(diǎn),句子與句子之間的某種關(guān)系作為邊的權(quán)重,通過(guò)隨機(jī)游走模型對(duì)句子的得分做迭代更新計(jì)算,從而實(shí)現(xiàn)對(duì)句子的評(píng)分,選擇一定數(shù)量得分高的句子組合成觀點(diǎn)摘要,而排序模型從觀點(diǎn)摘要的多樣性、冗余性等考慮因素出發(fā),構(gòu)建句子評(píng)分函數(shù)實(shí)現(xiàn)對(duì)句子的評(píng)分,或利用KL散度、MMR方法對(duì)句子做一個(gè)相對(duì)的分?jǐn)?shù)排序,通過(guò)分?jǐn)?shù)排序得到觀點(diǎn)摘要。其中這兩種方法都忽略了更細(xì)粒度的文本話題屬性,通過(guò)文本中所有單詞的多樣性考慮文本主旨的多樣性,沒(méi)有考慮文本主旨關(guān)鍵詞對(duì)觀點(diǎn)摘要的影響,在一定程度上限制了模型的后續(xù)研究。
當(dāng)前,國(guó)內(nèi)外研究學(xué)者紛紛對(duì)此展開(kāi)研究,提出了生成式的觀點(diǎn)摘要模型和基于次模函數(shù)的觀點(diǎn)摘要模型。其中,生成式觀點(diǎn)摘要模型根據(jù)觀點(diǎn)摘要的多樣性、文本信息冗余性等要素來(lái)考慮理想的觀點(diǎn)摘要,將文本句子分詞,通過(guò)遍歷組合的方式將所有的單詞通過(guò)不同的組合生成新的句子或簡(jiǎn)短的文本,將最終符合要求的單詞組合形式作為最終的觀點(diǎn)摘要,該方法具有較好的效果,但算法求解的時(shí)間復(fù)雜度過(guò)高,對(duì)于較短的數(shù)據(jù)集都要花數(shù)倍其他方法的時(shí)間,同樣無(wú)法應(yīng)用在大數(shù)據(jù)背景下的實(shí)際場(chǎng)景。而基于次模函數(shù)的觀點(diǎn)摘要方法通過(guò)次模函數(shù)性質(zhì),利用貪心算法保證得到的局部解可以不低于最優(yōu)解的63%,其貪心算法考慮了多種要素的情況挑選句子,雖然實(shí)驗(yàn)效果相對(duì)較好,但手動(dòng)構(gòu)建語(yǔ)料本體樹(shù)的方式并不適用于更為廣泛的應(yīng)用場(chǎng)景。
一般而言,觀點(diǎn)摘要的兩個(gè)基礎(chǔ)性質(zhì)是:1)保證得到的摘要囊括話題文本主旨;2)得到的摘要應(yīng)該覆蓋富有情感色彩的話題主旨。不足的是,現(xiàn)有的多數(shù)模型考慮利用文本句子所有單詞的多樣性來(lái)保證觀點(diǎn)摘要涵蓋文本主旨,通過(guò)單詞的多樣性來(lái)保證摘要的多樣性,但單詞的多樣性并不能保證觀點(diǎn)摘要囊括了源文本的主旨,與主旨不相關(guān)的單詞會(huì)影響最終生成的觀點(diǎn)摘要,而且現(xiàn)有研究方法通過(guò)整個(gè)文本句子的情感信息從而刻畫摘要情感信息,許多不相關(guān)文本主旨的情感也被考慮進(jìn)來(lái),這兩者因素導(dǎo)致最終得到的摘要包含許多與文本主旨不相關(guān)的內(nèi)容和情感信息。
因此,人們迫切希望能有一種更加高效準(zhǔn)確的觀點(diǎn)摘要研究方法,該方法通過(guò)實(shí)體抽取方法從源文本中提取話題屬性單詞作為文本主旨關(guān)鍵詞,結(jié)合情感分析研究方法來(lái)研究每個(gè)句子中關(guān)于以話題屬性為評(píng)價(jià)對(duì)象的情感信息,并通過(guò)融合句子重要性的話題屬性多樣性方法來(lái)挑選句子組合成觀點(diǎn)摘要,使得整個(gè)觀點(diǎn)摘要包含的帶情感信息的文本主旨最多。
發(fā)明內(nèi)容
本發(fā)明的目的是解決海量觀點(diǎn)文本數(shù)據(jù)的壓縮問(wèn)題,提出一種基于話題多樣性的觀點(diǎn)摘要方法,從話題屬性及其情感信息出發(fā)解決當(dāng)前研究方法存在的問(wèn)題,能夠高效準(zhǔn)確地得到話題文本的觀點(diǎn)摘要,并且能夠應(yīng)用于更大規(guī)模數(shù)據(jù)集應(yīng)用場(chǎng)景。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810166896.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 話題檢測(cè)的方法和裝置
- 一種科研文獻(xiàn)話題發(fā)現(xiàn)和演化跟蹤的方法
- 話題驅(qū)動(dòng)的人工智能回應(yīng)方法及裝置
- 熱點(diǎn)話題早期發(fā)展趨勢(shì)預(yù)測(cè)系統(tǒng)及預(yù)測(cè)方法
- 話題檢測(cè)方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種消息組織方法和服務(wù)器
- 話題篩選和發(fā)布的方法、裝置和服務(wù)器
- 話題內(nèi)容的排序方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 大數(shù)據(jù)話題日志處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種基于人工智能的熱點(diǎn)話題數(shù)據(jù)處理方法及話題服務(wù)器
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





