[發明專利]基于文本分析的文本關系處理方法、裝置和設備在審
| 申請號: | 202210516011.X | 申請日: | 2022-05-12 |
| 公開(公告)號: | CN114817475A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 馬寧亞;林廷懋;付博 | 申請(專利權)人: | 建信金融科技有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F40/216;G06F40/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張寧;黃健 |
| 地址: | 200120 上海市自由*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 分析 關系 處理 方法 裝置 設備 | ||
本申請提供一種基于文本分析的文本關系處理方法、裝置和設備。該方法包括:獲取目標事件組文本,包括具有因果關系的第一事件文本與第二事件文本,第一事件文本表征原因事件文本,第二事件文本表征結果事件文本;確定目標事件組文本的語義因果強度信息和詞頻因果強度信息;根據語義因果強度信息和詞頻因果強度信息,確定目標事件組文本的目標因果強度信息,目標因果強度信息表征第一事件文本與第二事件文本的因果強度關系。該方法基于目標事件組文本的語義信息與詞頻信息確定了事件文本的因果強度信息,避免了信息損失,提高了確定事件文本的因果強度關系的準確性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種基于文本分析的文本關系處理方法、裝置和設備。
背景技術
特定的時間和地域內發生的、有一個或多個角色參與、由一個或多個動作組成的一件事情稱為事件。各行各業都在產生海量的事件文本,例如金融領域。因此我們不僅需要對海量事件文本進行有效存儲、計算與分析,更需要從海量事件文本中挖掘潛在價值、探究事件發展變化規律。
現有技術中,通常通過計算出現在原因事件和結果事件中詞語的因果強度關系,確定事件文本的因果強度關系。
然而現有技術中,以詞語為粒度代表事件不可避免的存在信息損失;在原因事件與結果事件中可能存在一些意義不大的高頻詞,導致最終得出的事件文本的因果強度關系不準確。
發明內容
本申請提供一種基于文本分析的文本關系處理方法、裝置和設備,用以解決不能準確得出事件文本的因果強度關系的問題。
第一方面,本申請提供一種基于文本分析的文本關系處理方法,所述方法包括:
獲取目標事件組文本,所述目標事件組文本包括第一事件文本與第二事件文本,其中,所述第一事件文本與所述第二事件文本具有因果關系,所述第一事件文本表征原因事件文本,所述第二事件文本表征結果事件文本;
確定所述目標事件組文本的語義因果強度信息和詞頻因果強度信息;其中,所述語義因果強度信息表征基于文本語義信息確定的所述第一事件文本與所述第二事件文本的因果強度關系,所述詞頻因果強度信息表征基于單詞概率信息確定的所述第一事件文本與所述第二事件文本的因果強度關系;
根據所述語義因果強度信息和所述詞頻因果強度信息,確定所述目標事件組文本的目標因果強度信息,所述目標因果強度信息表征所述第一事件文本與所述第二事件文本的因果強度關系。
在可選的一種實施方式中,確定所述目標事件組文本的語義因果強度信息和詞頻因果強度信息,包括:
基于對比學習方法和預設的預訓練語言模型,確定所述目標事件組文本的所述語義因果強度信息;
基于所述目標事件組文本的統計信息,確定所述目標事件組文本的所述詞頻因果強度信息。
在可選的一種實施方式中,基于對比學習方法和預設的預訓練語言模型,確定所述語義因果強度信息,包括:
基于對比學習方法,優化所述第一事件文本與所述第二事件文本的目標向量空間距離,確定優化后的所述目標事件組文本;
根據所述優化后的目標事件組文本,確定所述語義因果強度信息。
在可選的一種實施方式中,基于對比學習方法,優化所述第一事件文本與所述第二事件文本的目標向量空間距離,確定優化后的所述目標事件組文本,包括:
獲取數據源中其他與所述第一事件文本具有弱因果關系的N個弱關系事件文本,其中N為大于或等于1的正整數;
基于對比學習方法,根據所述目標事件組文本以及各個弱關系事件文本,確定所述數據源的對比損失函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于建信金融科技有限責任公司,未經建信金融科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210516011.X/2.html,轉載請聲明來源鉆瓜專利網。





