[發明專利]一種構建因果關系確定模型的方法、裝置和設備在審
| 申請號: | 202011379460.1 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112329478A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 張茂洪 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/242;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 王曉菲 |
| 地址: | 100082 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 因果關系 確定 模型 方法 裝置 設備 | ||
本申請提供了一種構建因果關系確定模型的方法、裝置和設備。所述方法包括:獲取原始語料集;所述原始語料集中包括至少一個第一候選文本;根據目標事件因果關系模板在所述原始語料集中篩選第二候選文本;針對每一個第二候選文本,根據所述第二候選文本中每一個詞的詞向量和每一個字的字向量,確定所述第二候選文本的語句向量;基于每一個第二候選文本的語句向量對待訓練的因果關系確定模型進行訓練,得到訓練好的因果關系確定模型。本申請首先通過以字和詞同時作為表達語義的表示形式,提高了表達語義的準確度,進而可以通過分析語義有效識別出具有隱性因果關系的文本。
技術領域
本發明涉及深度學習技術領域,具體而言,涉及一種構建因果關系確定模型的方法、裝置和設備。
背景技術
中文的因果關系包含很多特點,首先,中文語料具有價值稀疏性、碎片性和隱含性;其次,一個事件在不同語境下,可能是原因,也可能是結果。因此,因果關系識別比較困難。
現有技術中,因果關系的識別主要通過模板匹配方法,通過模板匹配方法識別因果關系雖然具有很高的準確率,但是僅能識別顯性因果關系,隱性因果關系識別率低。
發明內容
有鑒于此,本發明的目的在于提供一種構建因果關系確定模型的方法、裝置和設備,解決了現有技術中確定具有隱性因果關系的文本識別率低的問題。
第一方面,本申請實施例提供了一種構建因果關系確定模型的方法,該方法包括:
獲取原始語料集;所述原始語料集中包括至少一個第一候選文本;
根據目標事件因果關系模板在所述原始語料集中篩選第二候選文本;
針對每一個第二候選文本,根據所述第二候選文本中每一個詞的詞向量和每一個字的字向量,確定所述第二候選文本的語句向量;
基于每一個第二候選文本的語句向量對待訓練的因果關系確定模型進行訓練,得到訓練好的因果關系確定模型。
可選的,所述基于每一個第二候選文本的語句向量對待訓練的因果關系確定模型進行訓練,得到訓練好的因果關系確定模型,包括:
針對每一個第二候選文本的語句向量,將所述第二候選文本的語句向量作為正樣本輸入至待訓練的因果關系確定模型,將所述第二候選文本的因果關系標簽作為負樣本輸入至待訓練的因果關系確定模型,對所述待訓練的因果關系確定模型進行訓練;
針對每一個第二候選文本的語句向量,將正樣本輸入至待訓練的因果關系確定模型得到的輸出結果與所述因果關系標簽進行比對,根據比對結果確定所述待訓練的因果關系確定模型訓練精度,當所述訓練精度達到預設精度值時,訓練結束,得到訓練好的因果關系確定模型。
可選的,所述針對每一個第二候選文本,根據所述第二候選文本中每一個詞的詞向量和每一個字的字向量,確定所述第二候選文本的語句向量,包括:
針對每一個第二候選文本,基于所述第二候選文本所對應的詞向量和字向量,通過注意力機制生成所述第二候選文本的語句向量。
可選的,所述方法還包括:
獲取待識別文本集合;所述待識別文本集合中包括至少一個待識別文本;
將每一個所述待識別文本分別輸入至訓練好的因果關系確定模型,根據訓練好的因果關系確定模型的輸出結果確定出具有目標因果關系的目標文本。
可選的,在將每一個所述待識別文本分別輸入至訓練好的目標因果關系確定模型之前,還包括:
針對每一個待識別文本,根據所述待識別文本中每一個詞的詞向量和每一個字的字向量,確定所述待識別文本的語句向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011379460.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:適于汽車總裝底盤吊具的調整裝置
- 下一篇:物聯網設備的配網方法和裝置





