[發明專利]一種文本立場檢測方法有效
| 申請號: | 202110392633.1 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN112800233B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 劉世林;康青楊;黃艷;曾途 | 申請(專利權)人: | 成都數聯銘品科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06F40/30 |
| 代理公司: | 北京市領專知識產權代理有限公司 11590 | 代理人: | 張玲 |
| 地址: | 610015 四川省成都市自由貿易試*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 立場 檢測 方法 | ||
本發明涉及一種文本立場檢測方法,包括以下步驟:使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型;在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b;對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量;使用kmeans算法對訓練集b所對應的向量進行聚類,將聚類簇的個數設置為2,從而判斷訓練集a中評論數據的立場。本發明使用無需人工標注的訓練集對模型進行訓練后,再結合kmeans算法即可檢測出評論數據立場的方法。
技術領域
本發明涉及自然語言技術領域,特別涉及一種文本立場檢測方法。
背景技術
互聯網上有大量的言論,往往需要對這些言論中的立場進行檢測。比如電商的評論區中用戶對產品的評價立場,豆瓣電影中觀眾對電影的評價立場,以及微博言論中評論人對某個事件的態度立場等等。因此本申請中所述文本的應用領域為以人類語言表示的各種言論、評論。
傳統的立場檢測方法需要對每一個特定場景的數據進行大量的人工標注,然后將人工標注的數據用來訓練監督學習模型,以使用訓練好的模型判斷文本的立場。這種方法雖然準確率較高,但是需要標注的成本也太高,且不通用。
還有傳統的基于非監督學習的立場檢測,直接對言論的詞向量聚類來進行立場判斷,由于這種方法沒有針對性,往往聚類出來的結果并不是想要的,或者使不準確的。
發明內容
本發明的目的在于無需人工標注訓練集,也能對評論數據進行立場檢測,提供一種文本立場檢測方法。
為了實現上述發明目的,本發明實施例提供了以下技術方案:
一種文本立場檢測方法,包括以下步驟:
使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型;所述訓練集a中為若干無標注的評論數據;所述評論數據為以人類語言表示的言論、評論;
在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b;
對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量;
使用kmeans算法對訓練集b所對應的向量進行聚類,將聚類簇的個數設置為2,聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場。
所述聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場的步驟,具體包括:
在語義一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為正向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為反向立場;
在語義不一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為反向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為正向立場。
所述聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場的步驟,還包括:
若對訓練集b所對應的向量進行聚類后,其對應的評論數據未被劃分到任何簇中,則該條評論數據為中立立場。
所述使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型的步驟之前,還包括:
將數據集a中的每條評論數據以標點符號為基準分為一條或多條語句,將所有評論數據中的一條或多條語句隨機交錯,構成不同的評論數據后輸入BERT預訓練模型,以使BERT預訓練模型具有判斷語義是否一致的功能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數聯銘品科技有限公司,未經成都數聯銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110392633.1/2.html,轉載請聲明來源鉆瓜專利網。





