[發明專利]文本擴寫方法、裝置、電子設備和存儲介質在審
| 申請號: | 202210190634.2 | 申請日: | 2022-02-28 |
| 公開(公告)號: | CN114611525A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 李浩然 | 申請(專利權)人: | 北京京東尚科信息技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/295;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 陳新生 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本擴寫方法,其特征在于,所述方法包括:
根據獲取的共指實體集合獲取第一實體對應的第一共指實體組,其中,所述第一實體為待擴寫文本中的實體,所述第一共指實體組包括第一實體以及所述第一實體的共指實體;
根據所述待擴寫文本和所述第一共指實體組獲取待擴寫修改文本;
根據所述待擴寫修改文本和文本擴寫模型的模型參數獲取生成概率、復制概率和生成權重,其中,所述生成權重為獲取解碼概率時所述生成概率對應的權重,獲取所述解碼概率時所述復制概率對應的權重與所述生成權重的和為1;
根據所述生成概率、所述復制概率和所述生成權重獲取所述解碼概率,以得到所述待擴寫文本的擴寫結果,其中,所述第一實體對應的生成概率被設置為0。
2.根據權利要求1所述的方法,其特征在于,所述文本擴寫模型的訓練方法包括:
獲取第一樣本擴寫文本數據集,所述第一樣本擴寫文本數據集中的第一樣本擴寫文本數據包括作為輸入文本的樣本修改文本和對應的輸出文本,所述樣本修改文本根據歷史擴寫文本及其實體對應的共指實體組得到;
采用所述第一樣本擴寫文本數據集對所述文本擴寫模型進行訓練,直到所述文本擴寫模型收斂,得到所述文本擴寫模型的模型參數,其中,所述文本擴寫模型的模型參數包括生成概率參數和激活函數參數組。
3.根據權利要求1所述的方法,其特征在于,所述文本擴寫模型包括以下任一種模型:卷積神經網絡CNN,循環神經網絡RNN和Transformer。
4.根據權利要求1所述的方法,其特征在于,所述根據獲取的共指實體集合獲取第一實體對應的第一共指實體組之前,所述方法還包括:獲取所述共指實體集合;
對所述待擴寫文本進行實體識別,得到所述第一實體;
根據所述第一實體在所述共指實體集合中匹配得到所述第一共指實體組。
5.根據權利要求4所述的方法,其特征在于,所述獲取所述共指實體集合之前,所述方法還包括:
獲取第二樣本擴寫文本數據集,所述第二樣本擴寫文本數據集中的第二樣本擴寫文本數據包括歷史擴寫文本中的輸入文本和對應的輸出文本;
獲取各個第二樣本擴寫文本數據中的實體的共現頻率;
根據所述共現頻率和頻率閾值獲取共指實體組,組成所述共指實體集合。
6.根據權利要求1所述的方法,其特征在于,所述根據所述待擴寫文本和所述第一共指實體組獲取待擴寫修改文本,包括:
將所述第一共指實體組中的全部實體插入到所述待擴寫文本中替換所述第一實體,形成所述待擴寫修改文本。
7.根據權利要求2所述的方法,其特征在于,所述根據所述待擴寫修改文本和文本擴寫模型的模型參數獲取生成概率、復制概率和生成權重,包括;
采用所述文本擴寫模型對所述待擴寫修改文本進行編碼并基于編碼結果得到解碼數據,所述解碼數據包括解碼器隱藏序列、上下文向量和注意力向量;
根據注意力向量獲取所述復制概率;
根據所述解碼器隱藏序列、所述上下文向量和所述生成概率參數獲取所述生成概率;
根據所述解碼器隱藏序列、所述上下文向量、所述待擴寫修改文本的詞向量和所述激活函數參數組獲取所述生成權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司,未經北京京東尚科信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210190634.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:肉桂基氯化鈀二聚體的制備方法
- 下一篇:一種SMD電子元件的處理工藝





