[發(fā)明專利]文本處理方法以及裝置在審
| 申請?zhí)枺?/td> | 202110853255.2 | 申請日: | 2021-07-27 |
| 公開(公告)號: | CN113468891A | 公開(公告)日: | 2021-10-01 |
| 發(fā)明(設計)人: | 顧大中;梁建增;周夢迪;王洪彬;李楠;喬建偉;喬莉 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/30;G06F16/36 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 吳肖肖 |
| 地址: | 310013 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 以及 裝置 | ||
1.一種文本處理方法,包括:
接收待處理文本,將所述待處理文本輸入實體識別模型,獲得帶有實體識別標簽的候選文本;
將所述帶有實體識別標簽的候選文本輸入實體判別模型,獲得所述候選文本的候選實體,并基于所述候選實體確定備選文本;
基于所述候選實體與所述備選文本構建關系知識圖,基于所述關系知識圖計算每個關系知識圖節(jié)點之間的相似度,確定目標實體關系;
基于所述目標實體關系在預設知識庫中,確定目標實體文本。
2.根據權利要求1所述的文本處理方法,所述實體識別模型通過如下方式訓練獲得:
接收待處理樣本文本,基于所述待處理樣本文本隨機確定對比樣本文本,將所述待處理樣本文本以及所述對比樣本文本確定為訓練樣本集;
基于所述訓練樣本集訓練實體識別模型。
3.根據權利要求2所述的文本處理方法,所述接收待處理文本,將所述待處理文本輸入實體識別模型,獲得帶有實體識別標簽的候選文本,包括:
接收待處理文本,將所述待處理文本輸入所述實體識別模型的語義識別模塊,獲得所述待處理文本的語義向量;
基于所述待處理文本的語義向量確定所述待處理文本的拼音向量,將所述語義向量以及所述拼音向量輸入所述實體識別模型的全連接層計算損失函數,獲得所述待處理文本的損失值;
將所述待處理文本的損失值輸入所述實體識別模型的概率網絡層,獲得帶有實體識別標簽的候選文本。
4.根據權利要求3所述的文本處理方法,所述將所述帶有實體識別標簽的候選文本輸入實體判別模型,獲得所述候選文本的候選實體,包括:
基于帶有實體識別標簽的候選文本輸入實體判別模型確定初始實體,將所述初始實體轉換為初始實體拼音,并基于所述初始實體拼音在預設知識庫中搜索與所述初始實體拼音相似的備選實體拼音;
計算所述初始實體拼音與所述備選實體拼音的相似性,并基于所述相似性與文本屬性進行排序,確定實體序列;
根據預設序列閾值確定所述候選文本的候選實體。
5.根據權利要求1-4任意一項所述的文本處理方法,所述基于所述候選實體確定備選文本,包括:
獲取所述候選文本的初始實體,并確定所述初始實體與所述候選實體的實體關聯(lián)關系;
基于所述初始實體、所述候選實體以及所述實體關聯(lián)關系構造關系圖;
將所述關系圖的節(jié)點實體嵌入所述待處理文本的初始實體之后,確定待評分文本,并基于所述待評分文本確定備選文本。
6.根據權利要求5所述的文本處理方法,所述基于所述待評分文本確定備選文本,包括:
將所述待評分文本輸入語義識別模型進行編碼,獲得所述待處理文本的初始實體向量以及所述關系圖的節(jié)點實體向量;
計算所述初始實體向量以及所述節(jié)點實體向量的相似性,確定備選文本。
7.根據權利要求6所述的文本處理方法,所述基于所述關系知識圖計算每個關系知識圖節(jié)點之間的相似度,確定目標實體關系,包括:
將所述關系知識圖中的所述候選實體與所述備選文本,輸入語義識別模型進行編碼,獲得候選實體向量以及備選文本向量;
基于所述候選實體向量以及所述備選文本向量輸入卷積算法模型進行特征提取,確定候選實體節(jié)點向量以及備選文本節(jié)點向量;
計算所述候選實體節(jié)點向量以及所述備選文本節(jié)點向量的相似度,基于預設相似度閾值確定目標實體關系。
8.根據權利要求7所述的文本處理方法,所述基于所述目標實體關系在預設知識庫中,確定目標實體文本,包括:
基于目標實體關系在所述關系知識圖中確定目標實體,并對所述目標實體進行拼接,獲得實體字符串;
基于所述實體字符串在所述關系知識圖中搜索,獲得匹配實體文本,并基于實體字符串在預設關系知識圖中搜索,獲得比對實體文本;
在確定所述匹配實體文本以及所述比對實體文本相匹配的情況下,將所述匹配實體文本確定為待選實體文本;
將所述待選實體文本在預設知識庫中進行關聯(lián),將關聯(lián)后的文本作為目標實體文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110853255.2/1.html,轉載請聲明來源鉆瓜專利網。





