[發(fā)明專利]一種基于圖模型的無監(jiān)督自動文摘提取方法有效
| 申請?zhí)枺?/td> | 201911321569.7 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111177365B | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設(shè)計)人: | 趙衛(wèi)東;陳曉露;王銘 | 申請(專利權(quán))人: | 山東科技大學(xué) |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06K9/62 |
| 代理公司: | 青島智地領(lǐng)創(chuàng)專利代理有限公司 37252 | 代理人: | 種艷麗 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模型 監(jiān)督 自動 文摘 提取 方法 | ||
本發(fā)明公開了一種基于圖模型的無監(jiān)督自動文摘提取方法,屬自然語言處理領(lǐng)域。本發(fā)明使用TF?IDF模型得到樣本特征詞的IDF值,輸入到PV?IDF模型訓(xùn)練得到樣本句子向量;利用關(guān)鍵詞和句子位置等信息得到句子初始權(quán)重,生成懲罰矩陣;將句子初始權(quán)重輸入圖模型中初始化節(jié)點權(quán)重,句子向量相似度作為節(jié)點連線權(quán)重,迭代圖模型得到句子得分并排序;將得分前n個候選文摘句利用懲罰矩陣篩選,得到文摘句;使用PV?IDF模型訓(xùn)練句子向量計算相似度,初始化圖模型節(jié)點權(quán)重,并使用懲罰矩陣對文摘句進行篩選,解決了現(xiàn)有無監(jiān)督自動文摘方法語義相關(guān)度低,冗余度高的問題,在R1和RL指標(biāo)有了顯著的提高,有效提高了文摘質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理領(lǐng)域,具體涉及一種基于圖模型的無監(jiān)督自動文摘提取方法。
背景技術(shù)
隨著大數(shù)據(jù)時代的到來,如何從海量的信息中快速準(zhǔn)確的提煉出關(guān)鍵信息已經(jīng)成為一個亟需解決的重要問題。文本摘要在新聞信息提取、科技文獻檢索、商品評論分析等領(lǐng)域都有重要應(yīng)用。隨著深度學(xué)習(xí)理論和方法的快速發(fā)展,已廣泛應(yīng)用于文本特征提取等自然語言處理領(lǐng)域。自動摘要可以從很多角度進行分類,按照有無監(jiān)督數(shù)據(jù)來劃分,可以分為有監(jiān)督和無監(jiān)督自動文摘方法。有監(jiān)督摘要方法需要從文件中選取主要內(nèi)容作為訓(xùn)練數(shù)據(jù),將文摘視為句子層面的分類問題,需要大量的注釋和標(biāo)簽數(shù)據(jù),會消耗大量的人力資源和時間成本。無監(jiān)督的文本摘要系統(tǒng)不需要任何監(jiān)督數(shù)據(jù),僅通過對文檔進行檢索即可形成摘要。但是目前的無監(jiān)督摘要沒有充分挖掘和利用語義之間的關(guān)系,對文檔數(shù)據(jù)利用不充分,文摘冗余度高,存在諸多局限性,為了解決無監(jiān)督自動文摘方法存在的主要問題,本發(fā)明提出了一種適用于中文文本摘要的自動提取算法。
目前,有關(guān)無監(jiān)督的自動文摘算法的研究有很多。其中,iTextRank算法在圖模型節(jié)點構(gòu)建時考慮引入標(biāo)題、段落、句子位置和長度等信息,有效提高了TextRank算法文摘質(zhì)量,但并未考慮文本語義信息。而DK-TextRank算法使用Doc2Vec訓(xùn)練句子向量,并使用K-means算法對句子向量進行聚類,該算法考慮了文章語義對文摘的影響,但首先使用K-means聚類會導(dǎo)致信息損失,某些文摘句在輸入圖模型之前就會被提前刪除。楊山等人使用Word2Vec模型訓(xùn)練詞向量,并利用句子中詞向量疊加求均值作為句子的向量表示,輸入TextRank圖模型進行迭代,該算法考慮使用了Word2Vec求均值的方法來表示含有語義信息的句子向量,但利用該方法得到的句子向量無法準(zhǔn)確表示句子中的語義信息,從而影響文摘質(zhì)量。
發(fā)明內(nèi)容
針對現(xiàn)有的無監(jiān)督文摘技術(shù)語義相關(guān)度低、文摘句冗余度高的問題,本發(fā)明提出了一種基于圖模型的無監(jiān)督自動文摘提取方法,提高了現(xiàn)有無監(jiān)督自動文摘質(zhì)量。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于圖模型的無監(jiān)督自動文摘提取方法,包括如下步驟:
步驟1:對測試數(shù)據(jù)以及語料庫的文本進行預(yù)處理;
步驟2:使用TF-IDF(Term Frequency–Inverse Document Frequency,詞頻-逆文檔頻率指數(shù))模型,訓(xùn)練得到樣本特征詞頻率和逆文檔頻率;
步驟3:將預(yù)處理后的文本和特征詞逆文檔頻率輸入到PV-IDF(Inverse DocumentFrequency of Paragraph Vectors,逆文檔頻率段落向量模型)模型中,訓(xùn)練得到樣本句子向量;
步驟4:利用步驟2得到的樣本特征詞頻率,結(jié)合句子位置和標(biāo)題相似度,計算得到樣本句子綜合權(quán)重;
步驟5:利用步驟3訓(xùn)練得到的樣本句子向量,計算得到樣本句子相似度矩陣ω,利用步驟4得到的樣本句子綜合權(quán)重,計算得到懲罰矩陣ω′ij;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東科技大學(xué),未經(jīng)山東科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911321569.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





