[發明專利]一種基于論元結構的事件觀點挖掘方法在審
| 申請號: | 202210031265.2 | 申請日: | 2022-01-12 |
| 公開(公告)號: | CN114528830A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 徐若曦;林鴻宇;韓先培;孫樂 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06F16/33;G06F40/126 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 結構 事件 觀點 挖掘 方法 | ||
1.一種基于論元結構的事件觀點挖掘方法,其步驟包括:
1)對于給定的事件e和文檔d,從文檔d中提取所有與給定事件e有關的觀點片段;
2)針對每一所述觀點片段,從事件e中提取表達觀點的事件子結構作為對應所述觀點片段的觀點對象;
3)根據步驟2)的處理結果,得到事件e的事件觀點集合T={…,(ok,ak),…|e,d};其中,ok是文檔d中的第k個觀點片段;ak是觀點ok對應的觀點對象。
2.根據權利要求1所述的方法,其特征在于,所述觀點片段的觀點對象包括事件本身、事件子事件和事件參與者。
3.根據權利要求2所述的方法,其特征在于,所述事件本身是指觀點片段直接針對整個事件發表看法;所述事件子事件是指觀點片段針對事件的子事件或相關事件發表看法;所述參與者是指觀點片段直接針對事件當中涉及的實體發表看法。
4.根據權利要求1或2或3所述的方法,其特征在于,從文檔d中提取所有與給定事件e有關的觀點片段的方法為:
1)將給定事件e和文檔d中的每一句使用BERT的通用拼接符號拼接,構造輸入:[CLS]事件短語[SEP]文檔句子[SEP];
2)將拼接后的文本輸入Transformer編碼器;
3)將起始符號[CLS]對應的表示輸入Softmax層進行分類,如果輸出結果為1,那么對應句子為與事件e相關的觀點句;如果輸出結果為0,則不是與事件e相關的觀點句;
4)將文檔d中連續的觀點句連接起來得到所述觀點片段。
5.根據權利要求1或2或3所述的方法,其特征在于,獲取所述觀點片段的觀點對象的方法為:
1)對事件e進行分詞,得到分詞集合{w1,w2,…,wm};其中,事件e為包含m個詞的文本短語,wm為事件e中第m個詞;文檔d包含n個句子,sn為文檔d中第n個句子;
2)隨意組合事件短語中連續的分詞,得到多個子短語;將每一所述子短語作為一待選觀點對象;
3)將每個待選觀點對象與一所述觀點片段使用雙向編碼器表示技術BERT的拼接符號拼接,構造輸入:[CLS]待選觀點對象[SEP]觀點片段[SEP];
4)將拼接后的文本輸入雙向編碼器表示技術BERT獲取該待選觀點對象與對應所述觀點片段的匹配程度,選擇匹配程度最高的待選觀點對象作為對應所述觀點片段的觀點對象。
6.根據權利要求5所述的方法,其特征在于,使用“結巴”中文分詞組件對事件e進行分詞,得到分詞集合{w1,w2,…,wm}。
7.根據權利要求1或2或3所述的方法,其特征在于,所述觀點片段的類別包括:判斷、態度、信仰、情感和建議。
8.一種服務器,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1至7任一所述方法中各步驟的指令。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7任一所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210031265.2/1.html,轉載請聲明來源鉆瓜專利網。





