[發明專利]一種基于語義相似度的中文自動文本摘要評價方法在審
| 申請號: | 202110382498.2 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113032569A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 張祖平;姜自高;鄭瑾 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289 |
| 代理公司: | 長沙七源專利代理事務所(普通合伙) 43214 | 代理人: | 蔡實艷;張勇 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 相似 中文 自動 文本 摘要 評價 方法 | ||
本發明提供一種基于語義相似度的中文自動文本摘要評價方法,具體步驟包括:從LCSTS中文摘要數據集中抽取出摘要文本、新聞短文本和人工標注;對摘要文本和新聞短文本進行預處理,使用預訓練詞向量對摘要文本和新聞短文本進行表征;將摘要文本和新聞短文本輸入至DPCNN?Siamese混合網絡模型中進行評分。本發明提出一種基于Siamese網絡結構的混合改進模型,使用LCSTS數據集中帶有人工評價的部分,將新聞標題和新聞內容作為輸入,分別使用DPCNN網絡結構提取文本的特征,并將兩個網絡層的輸出進行拼合,以人工評價的分數作為標簽數據進行訓練,通過模擬中文使用者的語言習慣來評價模型所生成的中文文本摘要的好壞。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于語義相似度的中文自動文本摘要評價方法。
背景技術
當前社會的發展正在朝著人工智能、大數據的信息化方向發展,各式各樣的文本信息層出不窮,如新浪微博、豆瓣短評、新聞日報等大量信息涌入到人們的日常生活之中,這也導致人們日常所獲取的都是大量且冗余信息,許多精確且重要的內容都被過長的文本所遮掩,從而難以快速高效的獲取有用信息。
隨著人工智能技術的不斷發展與進步,自動文本摘要技術逐漸在高效壓縮提取信息方面發揮著重大作用。在傳統的文本生成任務中,對于神經網絡模型所生成的文本,人們往往很難評估他們的質量。如果單純的是通過人工的評估的方式來評選機器所生成的文本摘要,其過程是非常昂貴且耗時的,并且還會存在因為每個人的評估標準不一致而導致的評分誤差。當研究人員對模型進行更新和改進之后,其生成結果則還需要重新評估,故而非常影響實驗效率。且由于文本摘要興起于國外,生成的文本主要是語法結構相對規范的英文,故而采用BLEU、ROUGE等方法,以詞的重合度作為評價標準來判斷生成摘要的質量是具有可行性的。但對于中文來說,標準漢語語法中最大的特點就是沒有嚴格意義的形態變化,例如,名詞通常沒有格的變化,動詞也不分人稱,這與歐洲的語言存在的較大的差別。漢語的另一特點是省略,即不影響主題意思的詞往往會被省略。故而人們要表達出一個意思可以存在多種不同的表達方式,在以字的重合度作為評價標準時,則顯得不太準確。
發明內容
本發明的目的在于針對現有的中文文本摘要評價方法多采用英文摘要的評價方法與實際中文使用者的語言習慣存在偏差的問題,提供一種可用來提高中文文本摘要評價的準確性的一種基于語義相似度的中文自動文本摘要評價方法。
為實現上述目的,本發明提供了一種基于語義相似度的中文自動文本摘要評價方法,包括以下步驟:
步驟一、從LCSTS中文摘要數據集PARTⅡ、PARTⅢ部分中抽取出摘要文本、新聞短文本和人工標注;
步驟二、對抽取出的摘要文本和新聞短文本進行預處理,使用預訓練詞向量對摘要文本和新聞短文本進行表征;
步驟三、將以預訓練詞向量進行表征的摘要文本和新聞短文本輸入至DPCNN-Siamese混合網絡模型中進行評分。
作為本發明的進一步方案:所述步驟二中對摘要文本和新聞短文本進行預處理的具體步驟如下:
步驟2.1、通過python的lxml庫將LCSTS中文摘要數據集中的摘要文本、新聞短文本和人工標注的內容抽取出來,并按照對應順序分別輸出到不同文件中;
步驟2.2、使用LTP分詞工具對從LCSTS中文摘要數據集中抽取出的摘要文本和新聞短文本進行分詞處理,并使用中文維基百科語料預訓練詞向量作為中文數據的文本詞向量;
步驟2.3、將摘要文本和新聞短文本中的中文轉換成300維的預訓練詞向量,并將每一條摘要文本的篇長處理成32字符、每一條新聞短文本的篇長處理成128字符;
步驟2.4、將已經處理成篇長32字符的摘要文本和128字符的新聞短文本分別輸入到神經網絡中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382498.2/2.html,轉載請聲明來源鉆瓜專利網。





