[發明專利]一種新聞評論觀點句識別方法在審
| 申請號: | 202110981244.2 | 申請日: | 2021-08-25 |
| 公開(公告)號: | CN113722482A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 王紅斌;李伊仝;線巖團;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06F40/205;G06K9/62 |
| 代理公司: | 北京眾允專利代理有限公司 11803 | 代理人: | 沈小青 |
| 地址: | 650000 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 評論 觀點 識別 方法 | ||
本發明公開了一種新聞評論觀點句識別方法,首先通過Textrank算法提取出新聞文本的幾個關鍵句,將這些關鍵句組成一個簡單摘要,再將新聞的每條評論與新聞摘要信息一起傳到BERT模型中獲得文本融合表示,最后送入全連接層,利用softmax函數將全連接層的輸出轉換為是否為觀點句的概率。本文與近年流行的深度學習文本分類模型進行了對比,在準確率上取得了84.01%的效果,說明了模型的有效性。并在NLPCC2012微博觀點句識別數據集上驗證了模型具有一定的泛化能力。
技術領域
本發明屬于自然語言處理中的觀點挖掘領域,具體涉及一種新聞評論觀點句識別方法。
背景技術
根據NLPCC2012對觀點句的定義,凡是表達對特定事物或對象的評價的句子都稱為觀點句,只包含內心自我情感、意愿或心情的句子都不是觀點句。本文將觀點句識別任務看作二分類任務,即對評論中每個句子進行分類,用標簽Y來表示觀點句,標簽N表示非觀點句。傳統的分類方法通常只針對評論進行分類,然而在新聞評論觀點句識別中,我們發現用戶表達的觀點句與新聞的內容高度相關,因此新聞文本信息不能忽視。近年來由于BERT預訓練模型強大的文本表征能力,在問答領域、文本分類等下游任務中取得了最佳性能,在NLP界掀起了巨大的熱潮。本發明專注于對新聞評論進行觀點句識別,然而BERT模型并不能很好地處理新聞這樣的長文本,因此在此基礎上提出一種將Textrank算法與BERT模型結合的方法。首先通過Textrank算法提取出新聞文本的幾個關鍵句,將這些關鍵句組成一個簡單摘要,再將新聞的每條評論與新聞摘要信息一起傳到BERT模型中獲得文本融合表示,最后送入全連接層,利用激活函數將全連接層的輸出轉換為是否為觀點句的概率,通過融入新聞摘要信息來提高觀點句識別效果。
發明內容
本發明專注于對新聞評論進行觀點句識別,然而BERT模型并不能很好地處理新聞這樣的長文本,因此在此基礎上提出一種將Textrank算法與BERT模型結合的方法。首先通過Textrank算法提取出新聞文本的幾個關鍵句,將這些關鍵句組成一個簡單摘要,再將新聞的每條評論與新聞摘要信息一起傳到BERT模型中獲得文本融合表示,最后送入全連接層,利用激活函數將全連接層的輸出轉換為是否為觀點句的概率,通過融入新聞摘要信息來提高觀點句識別效果。
為了實現上述技術效果,本發明是通過以下技術方案實現的,一種新聞評論觀點句識別方法,其特征在于,包括以下步驟:
S1:從數據集中分別提取出新聞文本和對應的新聞評論;
S2:將新聞文本通過Textrank算法提取出n個關鍵句,將n個關鍵句組成摘要;
S3:將新聞摘要信息與新聞評論文本一起送入BERT預訓練模型去獲得文本融合表示;
S4:將文本融合表示傳入到全連接層中,用softmax激活函數來將全連接層的輸出轉換為是否為觀點句的概率;
優選的,所述Textrank算法為使用Textrank將新聞文本中的關鍵語句抽取出來作為其對應的摘要,可以通過少量語句對新聞文本進行概括性表達,且其對應的文本表示中也包含了新聞的部分語義信息;從文本中提取關鍵句時,將文本中的每個句子分別看作一個節點,如果兩個句子具有相似性,就說這兩個句子對應的節點之間存在一條無向有權邊,衡量句子之間相似性如公式(1)所示:
其中,Vi和Vj分別表示句子i和句子j的節點,也代表句子詞的集合;wk表示句子中的第k個詞,分子部分統計wk在兩個句子中同時出現的次數,分母部分中對句子中詞的數量求對數之和,這樣可以有效地限制長句子在相似度計算上的優勢;
優選的,所述公式(1)計算得出兩個節點之間的相似度后,去除相似度較低的邊連接,構建出節點連接圖,每個節點的Textrank分數計算如公式(2)所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110981244.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高低頻網絡系統協同通信的方法
- 下一篇:緊急服務處理





