[發明專利]一種基于預訓練語言模型的觀點摘要評價系統有效
| 申請號: | 202110331685.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113032550B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 蔣涵;王雨濱;呂松昊;衛志華 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06Q10/06 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 語言 模型 觀點 摘要 評價 系統 | ||
1.一種基于預訓練語言模型的觀點摘要評價系統,其特征在于,包括預處理模塊、觀點摘要模塊和算法評價模塊;
預處理模塊包括分句處理和主觀性分析,首先通過分句處理獲取長度在200字以內、單句包含至多一種觀點或情感的句子集合,并篩去可能存在的非文本信息,主觀性分析借助預訓練語言模型對集合中句子進行二分類,以實現保留主觀句目的;
觀點摘要模塊,首先使用特定預訓練語言模型進行指定方向的語義挖掘,獲取主觀句表征即語義向量,并對語義向量進行譜聚類,結合效果指標與少數舍棄策略獲取若干聚類簇,每個聚類簇代表一個潛在的主流觀點群,再從類簇中心抽取作為最終主流觀點的主觀句并進行語義修正;
算法評價模塊,結合自動與人工評價,適用于觀點摘要算法的三段式評價標準,借助自行標注的主流觀點數據集,通過對生成觀點的主題召回率、正負極性進行自動評價,對算法生成觀點與參考觀點的一一對應程度進行人工評價,最后綜合上述評價標準評估主流觀點自動摘要算法的效果;
預處理模塊中進行主觀性分析時,對微調預訓練模型使用的語料進行標注,標注過程中對于“主觀性數據”的判定標準為:
對于某一條句子,通過語義層面的深入理解以判斷是否帶有主觀性,包含“認為”、“覺得”、“希望”表示主觀態度的詞匯或表達觀點、評價、情感、信念、推測、判斷、指控或立場的句子,都被列入主觀性數據的范疇,而包含例子或事實的描述性句子,以及過于口語化的句子,都被排除出主觀性數據的范疇;然后使用訓練數據構建主觀性分析模型;
構建主觀性分析模型,具體包括:
使用語料對預訓練語言模型BERT進行微調后,即得到主觀性分析模型,將分句處理所得句子集合輸入主觀性分析模型中進行預測,得到每條句子的主觀性預測概率,通過設定概率閾值對整個句子集合進行過濾,保留的討論語句具備較強主觀性,在后續步驟中用于主流觀點提取;
觀點摘要模塊中構建語義向量:
對于同一話題下的主觀句集合,首先獲取集合中的最長句子長度,將集合中所有句子重復延長至同一長度,多余部分從單側截斷,以最小化句子長度差異對后續向量計算與聚類效果的影響;然后使用在Sentence-BERT架構下對預訓練模型BERT進行微調,得到的多語言語義挖掘模型distiluse-base-multilingual-cased-v2計算主觀句的語義表征,得到語義向量集合,以提取主觀句中的語義與情感信息。
2.如權利要求1所述的一種基于預訓練語言模型的觀點摘要評價系統,其特征在于,算法評價模塊的具體實施方式包括:
1)對主題召回率進行自動評價,定義話題u的生成觀點集合為參考觀點集合為其中p,q示觀點數量;生成觀點集合Xu對參考觀點集合Yu的n元主題召回率為Recalln(u),利用如下公式進行計算:
其中為生成觀點集合Xu對參考觀點的n元主題召回率,計算方式如下:
上式中分子是Xu與中能夠匹配的n-gram個數,分母是中的n-gram個數;
θr為完整度系數,隨i的變動程度越小,即方差越小,完整度系數θr的值越大,計算方式如下:
2)對正負極性進行自動評價,為考察算法生成的主流觀點體現的總體情感傾向是否正確,通過計算、比對生成觀點與參考觀點的正負極性比例進行評估,定義話題u下生成觀點集合Xu的正負極性分數為Polar(u),利用如下公式進行計算:
其中為話題u下經情感分類,被標記為正類的生成觀點數,為正參考觀點數;
3)對觀點匹配程度進行人工評價,為考察生成觀點和參考觀點的一一對應程度,本發明借助人工評價進行打分,定義話題u下生成觀點集合Xu與參考觀點集合Yu的觀點匹配分數為Match(u);
按照生成觀點的主次即類簇大小降序排列,評分者依次將每個生成觀點與當前未匹配且最相似的參考觀點進行匹配,獲取若干匹配觀點組(x,y)與每組觀點的相似性分數Scru(x,y),則Match(u)可利用如下公式進行計算:
其中θm為獎勵系數,當所有觀點均匹配上時,話題的參考觀點數量q越多,θm越大,計算公式如下:
相似性分數Scru(x,y)由評分者通過比對觀點得出,擬定評分規則為:搭邊即有部分關鍵詞相似,0.3分;生成觀點包含參考觀點的部分語義,0.6分;參考觀點包含生成觀點的部分語義,0.7分;語義重合或高度相似,1.0分;
4)最終評分,上述三項分數Recalln(u),Polar(u),Match(u)均小于1,進行加權平均獲取最終評分Score(u),計算公式如下:
Score(u)=∑nαr,nRecalln(u)+αpPolar(u)+αmMatch(u);
其中αr,n,αp,αm為系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110331685.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種單點支撐的整面受力按鍵結構
- 下一篇:一種固硫灰制備裝配式保溫墻板的方法





