[發(fā)明專利]一種基于預(yù)訓(xùn)練語言模型的觀點摘要評價系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110331685.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113032550B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計)人: | 蔣涵;王雨濱;呂松昊;衛(wèi)志華 | 申請(專利權(quán))人: | 同濟大學(xué) |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06Q10/06 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 語言 模型 觀點 摘要 評價 系統(tǒng) | ||
一種基于預(yù)訓(xùn)練語言模型的觀點摘要評價系統(tǒng),包括預(yù)處理模塊、觀點摘要模塊與算法評價模塊。預(yù)處理模塊包括分句處理和主觀性分析,對原生語料通過分句和長度限制過濾后,借助預(yù)訓(xùn)練語言模型進行主觀性分析以保留主觀性較強的句子;觀點摘要模塊使用特定預(yù)訓(xùn)練語言模型生成語義向量并進行譜聚類,結(jié)合效果指標(biāo)與少數(shù)舍棄策略獲取若干個包含不同潛在主流觀點的聚類簇,并從每個聚類中心附近抽取作為最終主流觀點的主觀句,通過語義修正以緩解口吻差異帶來的閱讀問題;算法評價模塊借助主流觀點數(shù)據(jù)集,對生成觀點的主題召回率、正負(fù)極性進行自動評價,對算法生成觀點與參考觀點的對應(yīng)程度進行人工評價,綜合上述指標(biāo)對摘要算法的效果給出合理評估。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理領(lǐng)域。
背景技術(shù)
得益于信息技術(shù)的蓬勃發(fā)展以及新冠疫情影響下人們對網(wǎng)絡(luò)社交軟件日益增長的需求,諸如論壇、視頻會議等軟件將逐漸成為人們?nèi)粘9ぷ魃钪械闹匾糠郑纱藢碛懻撚涗浶驼Z料規(guī)模的顯著增加。另一方面,蓬勃的互聯(lián)網(wǎng)技術(shù)使得人們每天能接觸到大量不同領(lǐng)域的信息,造成了信息過載的問題,人們?yōu)榱藦暮A啃畔⒅蝎@取關(guān)鍵內(nèi)容所需的時間成本大幅提升。同時,現(xiàn)代快節(jié)奏生活和時間的碎片化也進一步激發(fā)人們對快速捕捉關(guān)鍵信息、隨時了解熱點話題的需求。討論記錄型語料作為人們?nèi)粘I钪斜磉_立場、闡述觀點的語句集合,不可避免地具有用語口語化、語法不規(guī)范、觀點多而雜等特點。如何運用自然語言處理技術(shù),從討論記錄中獲取主要觀點并以摘要的方式呈現(xiàn),是互聯(lián)網(wǎng)+時代下進行輿情分析、快速獲取熱點話題關(guān)鍵信息的一個重要課題。
傳統(tǒng)的摘要技術(shù)往往將語料中的句子轉(zhuǎn)化成語義單元序列,通過提取抽象語義和序列信息對詞句進行表征。這種算法在針對用語規(guī)范的語料,如新聞報道、正式會議講話、科技文獻時有著不錯的表現(xiàn),然而面對口語化嚴(yán)重的討論記錄型語料,容易表現(xiàn)出以下不足:
1)討論記錄型語料包含大量的個人親歷和客觀事實闡述,這些內(nèi)容無法直接體現(xiàn)主要觀點,而傳統(tǒng)的摘要技術(shù)難以將這些語句和其它語句加以區(qū)分;2)討論記錄型語料包含觀點多而雜,傳統(tǒng)的摘要技術(shù)難以真正獲取其中的主要觀點;3)討論記錄型語料口語化嚴(yán)重,傳統(tǒng)摘要技術(shù)得出的結(jié)果可能有明顯的語句不通和歧義,摘要結(jié)果難以閱讀;4)傳統(tǒng)摘要相對單一的評價標(biāo)準(zhǔn)不適用于討論記錄型語料的摘要,而目前尚未有一種針對此類語料摘要的評價標(biāo)準(zhǔn)。因此,目前亟待發(fā)明一種能夠有效篩選出討論記錄型語料中的強主觀性語句,獲取其中的主流觀點并生成摘要的新型自動摘要算法及其相應(yīng)的評價標(biāo)準(zhǔn)。
發(fā)明內(nèi)容
在正處于并可能長期處于新冠疫情影響下的互聯(lián)網(wǎng)+時代,網(wǎng)絡(luò)會議、論壇等社交工具的使用熱度將在未來一段時間內(nèi)持續(xù)增長。如何從生命周期較短、體量龐大的討論記錄中及時獲取主要觀點和情感傾向,是進行輿情調(diào)查等工作的關(guān)鍵問題。隨著自然語言處理領(lǐng)域預(yù)訓(xùn)練模型的快速發(fā)展和連續(xù)突破,基于預(yù)訓(xùn)練語言模型與討論記錄特征,設(shè)計自動摘要算法及算法評價標(biāo)準(zhǔn)成為解決該問題的可行途徑。
現(xiàn)有自動摘要算法將文本中的句子建模成語義單元序列,提取抽象的語義和序列信息對詞、句進行表征,將自動摘要任務(wù)轉(zhuǎn)化成序列任務(wù)。這種方法應(yīng)用面廣泛,在新聞標(biāo)題生成、科技文獻摘要生成、搜索結(jié)果片段選取、評論摘要生成等應(yīng)用場景下發(fā)揮均較出色,但仍具有一定局限性:對大型語言模型進行預(yù)訓(xùn)練成本較高,需要特定的訓(xùn)練數(shù)據(jù);待摘要的文本多為上下文關(guān)聯(lián)較為緊湊、長度中等偏短的連貫文本,對其他類型的語料摘要能力較差。
討論記錄的特點有時效性短、數(shù)據(jù)量大、上下文關(guān)聯(lián)不一定緊密,以及圍繞一個主題展開,但同時包含多種觀點主旨與情感傾向等。并且,與現(xiàn)有的多文檔摘要任務(wù)中的多文檔比較,討論記錄的結(jié)構(gòu)化程度更弱,即少有或沒有以長度相近的單篇文檔為基本單元的內(nèi)部結(jié)構(gòu);口吻或文體不統(tǒng)一,口語與書面、議論與記敘等并存;包含的情感信息更為復(fù)雜多變。因此本申請?zhí)岢鲆环N基于預(yù)訓(xùn)練語言模型的觀點摘要算法及其評價標(biāo)準(zhǔn),以便新語料的挖掘。
為此,給出技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟大學(xué),未經(jīng)同濟大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110331685.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





