[發(fā)明專利]一種語句觀點抽取方法、裝置、計算機設備和存儲介質在審
| 申請?zhí)枺?/td> | 202110945682.3 | 申請日: | 2021-08-16 |
| 公開(公告)號: | CN113609260A | 公開(公告)日: | 2021-11-05 |
| 發(fā)明(設計)人: | 馬躍 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/35 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 付婧 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語句 觀點 抽取 方法 裝置 計算機 設備 存儲 介質 | ||
本發(fā)明公開了一種語句觀點抽取方法、裝置、計算機設備和存儲介質。所述方法包括:根據(jù)樣本數(shù)據(jù)對觀點抽取模型進行訓練,得到兩階段抽取模型,兩階段抽取模型包括第一階段的觀點抽取子模型和第二階段的對象抽取子模型;將當前句子輸入至觀點抽取子模型中進行觀點識別,得到對應的觀點片段集合;以及將觀點片段集合輸入至對象抽取子模型中,對觀點片段集合中的任意一個觀點片段進行抽取,得到抽取結果。因此,采用本申請,由于引入了兩階段抽取模型,這樣,最終得到的抽取結果更加準確,經(jīng)由數(shù)據(jù)證明,相對于現(xiàn)有技術而言,采用該兩階段抽取模型所得到的抽取結果的準確率和召回率均有明顯提升。
技術領域
本發(fā)明涉及人工智能技術領域,特別涉及一種語句觀點抽取方法、裝置、計算機設備和存儲介質。
背景技術
隨著人工智能技術的發(fā)展,人工智能技術也不斷地應用于金融領域,其中,人工智能技術可以應用于研報、金融觀點報告中的觀點抽取。
現(xiàn)有的對金融觀點的抽取方法,集中于在使用序列標注對對象、觀點進行標注?,F(xiàn)有的序列標注方法,會給選取的一句話中的每個字打標簽,分別打上“0”、“B_對象”、“I_對象”、“B_觀點”、“I_觀點”中的一個(其中,B表示片段首字,I表示片段非首字)。在給選取的一句話中的每個字標注完成之后,使用啟發(fā)式規(guī)則,例如,就近原則,將抽取得到的觀點分配給對應的描述對象。例如,對每一個對象,會搜索該對象最近的一個觀點,并基于該觀點生成對應的組合。
現(xiàn)有的序列標注方法,可以一次性地標注出句子的觀點和對象,但是,這種方法標注出的觀點和對象,是沒有先后順序的,也不存在對應關系,而是用啟發(fā)式規(guī)則,對抽取得到的抽取結果進行配對。
上述現(xiàn)有的抽取方法往往存在如下兩個問題:
問題一:配對規(guī)則難以設計。往往采用的配對規(guī)則是就近匹配,但是,若某個對象前后均有觀點的時候,容易發(fā)生錯配現(xiàn)象,容易出現(xiàn)將后面的觀點錯配給前面的對象。在實際應用中,由于自然語言表達的多樣性,往往會引發(fā)更復雜的錯誤。
問題二:在現(xiàn)有所采用的就近匹配的配對規(guī)則下,為了保證抽取結果的準確性,通常一個對象只能匹配一個觀點,這樣,對于多個觀點的表達,常會發(fā)生缺漏現(xiàn)象。
發(fā)明內容
基于此,有必要針對現(xiàn)有語句抽取方法的抽取準確率低的問題,提供一種語句觀點抽取方法、裝置、計算機設備和存儲介質。
第一方面,本申請實施例提供了一種語句觀點抽取方法,所述方法包括:
獲取預設數(shù)量的樣本數(shù)據(jù);
根據(jù)所述樣本數(shù)據(jù)對觀點抽取模型進行訓練,得到兩階段抽取模型,所述兩階段抽取模型包括第一階段的觀點抽取子模型和第二階段的對象抽取子模型;
將當前句子輸入至所述觀點抽取子模型中進行觀點識別,得到對應的觀點片段集合;
將所述觀點片段集合輸入至所述對象抽取子模型中,對所述觀點片段集合中的任意一個觀點片段進行抽取,得到抽取結果。
在一種實施方式中,所述觀點抽取子模型的結構為第一預設結構;所述第一預設結構包括位于所述觀點抽取子模型下層的第一BERT結構,位于所述觀點抽取子模型上層的第一CRF結構;所述觀點抽取子模型用于對輸入的文本進行編碼,并在所述第一CRF結構頂部輸出觀點片段結果。
在一種實施方式中,所述對象抽取子模型的結構為第二預設結構;所述第二預設結構包括位于所述對象抽取子模型下層的第二BERT結構,位于所述對象抽取子模型上層的第二CRF結構;所述對象抽取子模型用于所述觀點片段集合中的任意一個觀點片段進行處理,并在所述第二CRF結構頂部輸出所述抽取結果。
在一種實施方式中,所述將所述觀點片段集合輸入至所述對象抽取子模型中,對所述觀點片段集合中的任意一個觀點片段進行抽取,得到抽取結果包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110945682.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





